TURA: Tool-Augmented Unified Retrieval Agent for AI Search

发布时间：2026/5/19 14:51:15

本文档系统解读TURATool-Augmented Unified Retrieval Agent for AI Search论文的核心原理。TURA针对传统RAG系统在工业环境中的核心痛点——静态索引无法访问实时动态数据、难以处理多意图复杂查询——提出了一种三阶段代理框架将RAG与工具调用Tool-Use系统性地融合。其核心洞察是现代AI搜索不能仅靠“读取”已索引的静态页面而必须能够“调用”外部API和实时数据源。基于此TURA设计了三大模块意图感知检索模块将用户查询拆解为多个原子意图从封装为MCP服务器的海量工具中精准召回最相关的工具基于DAG的任务规划器将原子任务建模为有向无环图识别并并行执行无依赖关系的子任务以及轻量级蒸馏代理执行器用小模型如Qwen3-4B蒸馏大模型如DeepSeek-V3的推理能力实现高效的工具调用。TURA已在百度亿级流量场景中上线服务于数千万用户。随后本文档以查询“庹忠曜在南京邮电大学期间获得过哪些荣誉他发表过哪些论文请帮我找到他的照片”为例模拟TURA三阶段框架的实际运行过程与纯RAG方案进行量化对比并给出伪代码实现流程和模拟实验数据。一、论文核心原理从“静态阅读”到“动态交互”1.1 背景与问题大型语言模型LLM的崛起正在将搜索引擎转变为对话式AI搜索产品主流方案主要依赖RAG——从网络语料库检索信息后再生成回答。然而这一范式在工业应用中存在显著局限性局限类型具体表现实时性需求传统RAG只能回答索引好的静态内容无法应对需要访问动态生成数据如票务可用性、库存水平的查询结构化查询无法执行访问数据库或调用API所需的交互式查询复杂多意图学术研究主要聚焦静态内容RAG忽视了用户查询中往往包含多个子意图跨工具编排完成一个复合任务往往需要调用多个工具/API传统RAG缺乏任务编排能力论文用一个典型场景说明问题用户问“下周三北京到上海的最低票价是多少”——传统RAG只能返回几周前索引的旧页面或购票攻略无法实时调用携程API获取真实票务信息。1.2 关键洞察TURA论文的核心洞察可概括为AI搜索不能只做“信息检索器”——它必须成为一个能“行动”的代理。具体而言查询意图是复合的用户一句话往往包含多个意图如“查天气订酒店规划路线”需要拆解处理。数据源是异构的静态网页只能满足部分需求真实的答案藏在数据库、实时API、交易系统中。任务间存在依赖关系有些任务可以并行如查天气和查景点有些必须串行如订票后才能规划路线需要编排。速度是工业红线数千万用户规模下端到端延迟是核心指标必须将大模型的“慢思考”转化为小模型的“快执行”。1.3 TURA框架三阶段架构TURA提出了一个三阶段代理框架系统性融合RAG与工具调用。用户查询①意图感知检索模块查询分解 MCP服务器召回②DAG任务规划器依赖建模并行编排③蒸馏代理执行器工具调用结果聚合最终回答阶段①意图感知检索Intent-Aware Retrieval目标将用户的一句话查询拆解为多个原子意图并从数以千计的工具/API中精准定位出最相关的少数几个。核心技术查询分解LLM先将复合查询拆解为多个独立的小意图。例如“我想去北京玩5天”会被拆成查北京天气、找5个景点、订酒店、规划路线。语义增强索引为每个工具离线生成约20种“用户可能问法”解决“用户口语表达 vs API标准文档”之间的语义鸿沟。多向量检索使用ERNIE进行多向量MaxSim检索Recall5达到0.8289。阶段②基于DAG的任务规划器DAG-based Task Planner目标将原子任务建模为有向无环图识别并行机会最小化端到端延迟。核心技术任务依赖关系被建模为DAG无依赖关系的任务可并行执行。例如“订酒店”和“查天气”互不依赖可以同时进行“规划路线”需等待前两者完成后才启动。实测效果相比串行执行DAG并行方案将延迟从1650ms降至920ms降低44%成功率相当。阶段③蒸馏代理执行器Distilled Agent Executor目标用小模型蒸馏大模型的工具调用能力在保证精度的前提下显著降低延迟。核心技术教师模型DeepSeek-V3671B参数负责生成高质量的训练样本和推理链条。学生模型Qwen3-4B蒸馏版学习教师的工具调用策略。蒸馏策略训练时保留完整的思维链Chain-of-Thought推理时直接输出动作既省token又保智商。实测效果指标DeepSeek-V3教师Qwen3-4B蒸馏版学生工具调用准确率82.4%88.3%高于教师端到端延迟2s750ms推理轨迹长度token多简洁高效1.4 工业实战成绩TURA已在百度真实亿级流量场景中完成A/B测试服务于数千万用户。指标传统RAGTURA提升Session Success RateSSR55.1%64.0%8.9%人工评价“明显更好”-13%的场景-人工评价“出现新问题”-仅4%的场景-DAG并行 vs 串行延迟1650ms920ms-44%Recall5意图感知检索基线0.8289-二、核心贡献总结贡献说明首次系统性整合RAG与工具调用TURA是第一个将静态内容检索与动态实时数据访问统一到同一框架的架构三阶段可插拔架构意图感知检索 → DAG规划 → 蒸馏执行各模块可独立优化替换MCP服务器封装机制将异构工具/API统一抽象为Model Context Protocol服务器实现统一检索接口DAG级并行编排在工业规模上实现任务依赖建模与并行执行显著降低延迟知识蒸馏降本增效用4B小模型超越671B大模型的工具调用准确率兼顾工业化低成本诉求论文在百度真实线上流量中跑通并取得显著业务增益标志着AI搜索从“被动RAG阅读”向“主动代理行动”的范式级突破。三、以“庹忠曜”为例的Demo测量我们模拟一个基于TURA框架的AI搜索场景用户发出复合查询展示TURA如何完成从意图拆解、并行规划到工具调用的完整流程。3.1 任务设定用户问题庹忠曜在南京邮电大学期间获得过哪些荣誉他发表过哪些论文请帮我找到他的照片。这是一个包含三个原子意图的复合查询荣誉查询需要检索静态百科/新闻页面论文查询需要检索学术数据库或期刊索引照片获取需要访问图片库或图床API3.2 对比方案方案处理方式预期问题传统RAG基准直接检索“庹忠曜”返回静态索引页面照片需要专门API才能获取论文信息可能不全TURA三阶段拆解意图 → DAG规划 → 并行调用工具满足所有子需求效率最高3.3 TURA分阶段模拟阶段①意图感知检索输入查询“庹忠曜在南京邮电大学期间获得过哪些荣誉他发表过哪些论文请帮我找到他的照片。”查询分解与工具召回子意图查询重写检索到的MCP服务器获奖信息“庹忠曜南京邮电大学荣誉奖项本科期间”百度百科MCP Server、南邮官网新闻MCP Server论文信息“庹忠曜论文发表期刊”学术数据库MCP Server知网/万方/arXiv照片获取“庹忠曜照片图像人物”图片搜索API MCP Server百度图库阶段②DAG任务规划依赖关系分析用户查询: 庹忠曜 (荣誉论文照片)子任务1: 检索荣誉信息子任务2: 检索论文信息子任务3: 获取照片聚合所有结果生成最终回答T1、T2、T3之间无数据依赖三者可完全并行执行。所有子任务完成后聚合模块等待三者全部就绪再生成最终回答。阶段③蒸馏代理并行执行并行执行结果模拟子任务调用的MCP Server执行时间蒸馏版返回内容荣誉检索百科MCP 新闻MCP720ms荣誉列表模范团员、南邮优毕、华为奖学金等论文检索学术DB MCP880ms7篇论文含标题、期刊、DOI照片获取图片搜索API MCP650ms人物照片URL附上下文描述并行优势总耗时 ≈ max(720, 880, 650) 小规模聚合时间 ≈950ms。3.4 量化对比TURA vs 纯RAG对比维度纯RAG顺序执行TURA三阶段并行优势荣誉查询✓ 能查到部分荣誉✓ 百科新闻双重召回覆盖面更广论文查询✗ 若期刊未被索引则缺失✓ 调用学术DB MCP保障完整新增能力照片获取✗ 无此能力✓ 调用图片API MCP新增能力执行方式串行 → 约2.5sDAG并行 → 约0.95s延迟降低62%Session Success Rate假设基线条55.1%参照论文SSR64.0%8.9pp用户满意度部分需求未满足三个子需求全部满足体验显著提升3.5 Demo代码模拟TURA核心伪代码# TURA 三阶段核心伪代码 classTURASearchAgent:def__init__(self,llm,mcp_server_registry,planner,distilled_executor):self.llmllm# 大语言模型self.server_registrymcp_server_registry# MCP服务器注册中心self.plannerplanner# DAG任务规划器self.executordistilled_executor# 蒸馏代理执行器defsearch(self,query:str)-str:# 阶段1意图感知检索 sub_intentsself.llm.decompose_query(query)print(f分解意图:{sub_intents})relevant_mcp_servers[]forintentinsub_intents:serverself.server_registry.semantic_retrieve(intent)relevant_mcp_servers.append(server)# 阶段2DAG任务规划 # 根据子意图之间的依赖关系构建有向无环图# 识别可并行执行的任务dagself.planner.build_dag(sub_intents,relevant_mcp_servers)parallel_groupsself.planner.identify_parallel_groups(dag)# 阶段3蒸馏代理并行执行 results{}forgroupinparallel_groups:# 组内任务并行执行蒸馏小模型实际调用工具group_resultsself.executor.parallel_invoke(group)results.update(group_results)# 答案聚合与生成 final_answerself.llm.synthesize(query,results)returnfinal_answer# 示例运行庹忠曜复合查询agentTURASearchAgent(llmERNIE_Bot,# 百度ERNIEmcp_server_registry[BaikeMCP(),NjuptNewsMCP(),AcademicDBMCP(),ImageSearchMCP()],plannerDAGParallelPlanner(),executorDistilledAgentExecutor(Qwen3-4B-distilled))question庹忠曜在南京邮电大学期间获得过哪些荣誉他发表过哪些论文请帮我找到他的照片。answeragent.search(question)print(answer)预期输出荣誉庹忠曜在南京邮电大学本科期间主要荣誉包括随州一中模范团员2020、南京邮电大学优秀毕业生2025、华为智能基座“未来之星”、华为奖学金、两次校级一等奖学金2023、2024、第九届中国互联网创新创业大赛金奖等。论文他参与发表了7篇学术论文包括《基于改进交织异算法的数据抗强干扰传输设计》《基于立体热成像的电磁驱动灭火弹设计》《基于FPGA的便携式PWM方波信号发生器》等。照片[图片]庹忠曜右二在第九届互联网江苏省赛中领取金奖后的团队合影。说明文字庹忠曜与自动化学院团队在颁奖现场。四、总结与启示4.1 TURA的核心价值维度传统RAGTURA数据源静态索引网页静态网页实时API 数据库能力边界只能“读”能“读”也能“调用”复杂查询整句检索忽略多意图意图分解分类处理任务编排线性顺序DAG并行编排工业级延迟通常2s可低至750ms-950ms已上线规模概念或实验室百度亿级流量4.2 对庹忠曜示例的启示在我们的模拟查询中TURA相比传统RAG实现了能力扩展新增论文完整检索、照片自动获取两项纯RAG不具备的能力。速度提升通过DAG并行三类任务同时执行端到端延迟从约2.5s降至约0.95s。体验跃迁三个子需求一次性全部满足用户无需二次提问。4.3 可推广性TURA的框架设计具有广泛的可推广性跨领域适配工具调用的通用抽象MCP服务器意味着该架构可平移到电商、金融、医疗、物流等任何依赖API和数据源的垂直场景。持续进化的工具生态新增一个工具只需注册新的MCP服务器无需改动核心框架。与其他Agent框架的互补可与AutoSearch自适应搜索深度、CoSearch联合训练检索器结合使用分别优化搜索步数控制和检索系统训练。下一步建议可以围绕“庹忠曜”构建一个专有MCP服务器包含他的完整论文数据库、新闻资料库、图片集再接入TURA架构使整个Agent真正实现对该人物所有信息的“检索行动”一体化问答能力。本文档基于TURA论文原理结合庹忠曜信息进行模拟测量所有数据均为演示性质。如需真实实现请参考原始论文arXiv:2508.04604百度TURA已在千帆平台部署。

Winhance：Windows系统优化与个性化一站式解决方案

Winhance：Windows系统优化与个性化一站式解决方案【免费下载链接】Winhance-zh_CN A Chinese version of Winhance. C# application designed to optimize and customize your Windows experience. 项目地址: https://gitcode.com/gh_mirrors/wi/Winhance-zh_CN …

2026/5/19 14:51:15 阅读更多

终极Python GUI设计神器：Pygubu Designer完整使用指南

终极Python GUI设计神器：Pygubu Designer完整使用指南【免费下载链接】pygubu-designer A simple GUI designer for the python tkinter module 项目地址: https://gitcode.com/gh_mirrors/py/pygubu-designer 还在为Python GUI开发而烦恼吗？每次…

2026/5/19 14:50:54 阅读更多

ChromaControl终极指南：一款开源软件实现所有RGB设备统一控制

ChromaControl终极指南：一款开源软件实现所有RGB设备统一控制【免费下载链接】ChromaControl 3rd party device lighting support for Razer Synapse. 项目地址: https://gitcode.com/gh_mirrors/ch/ChromaControl 你是否厌倦了为每个RGB设备安装独立的控制…

2026/5/19 14:50:54 阅读更多

5分钟掌握抖音下载神器：突破平台限制的智能解决方案

5分钟掌握抖音下载神器：突破平台限制的智能解决方案【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support…

2026/5/19 15:32:54 阅读更多

RT-Thread嵌入式大赛实战指南：从硬件选型到项目提交全解析

1. 从旁观到参与：我眼中的RT-Thread全球嵌入式设计大赛最近，RT-Thread全球嵌入式电子设计大赛又拉开了新一届的帷幕。作为一名在嵌入式行业摸爬滚打了十来年的老鸟，我几乎每年都会关注这个赛事。它不像一些纯理论的竞赛，更像是一个…

2026/5/19 15:32:54 阅读更多

华为od机试新系统-麻将基本胡牌型判断(C/C++/Py/Java/Js/Go)

麻将基本胡牌型判断华为OD新系统机试真题华为OD新系统上机考试真题 5月17号 100分题型华为OD机试新系统真题目录点击查看: 华为OD机试新系统真题题库目录｜机考题库 + 算法考点详解题目内容给定 14 14 14张麻将牌，只包含三种花色：万（用 1 1 1表示）、条（用

2026/5/19 15:29:10 阅读更多

别再死记ResNet结构了！用PyTorch手把手带你复现ResNet-50（附完整代码与可视化）

从零构建ResNet-50：PyTorch实战与架构解密当你第一次看到ResNet的残差连接时，是否曾被那个"跳跃"的结构所困惑？为什么简单的跨层连接就能解决深度网络的退化问题？本文将以工程师视角，带你用PyTorch从第一行…

2026/5/19 15:29:10 阅读更多

终极指南：12306智能抢票助手完整使用教程

终极指南：12306智能抢票助手完整使用教程【免费下载链接】12306 12306智能刷票，订票项目地址: https://gitcode.com/gh_mirrors/12/12306 还在为春运抢票而烦恼吗？12306智能抢票助手让你轻松告别手动刷票的煎熬！这个强大…

2026/5/19 15:26:46 阅读更多

题解：洛谷 P14074 [GESP202509 五级] 有趣的数字和

本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大…

2026/5/19 15:26:46 阅读更多

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务【免费下载链接】biliTickerBuy b站会员购购票辅助工具项目地址: https://gitcode.com/GitHub_Trending/bi/biliTickerBuy biliTickerBuy是一款专为B站会员购平台设计的开源辅助工具&…

2026/5/19 0:00:10 阅读更多

一口气讲清楚 Monorepo、Turborepo、pnpm、Changesets 到底是什么？

你肯定遇到过这种情况：项目里同时有前端、后端、公共组件，放在一个仓库嫌乱，拆成多个仓库又改一个公共函数要在五个项目里各改一遍。于是出现了 Monorepo、Turborepo、pnpm、Changesets 这四个词。它们不是互相替代，而是分别解决工…

2026/5/19 0:00:31 阅读更多

从ok-skills项目解析技能树：设计理念、技术实现与工程实践

1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目，叫“ok-skills”。光看这个名字，可能有点摸不着头脑，但点进去一看，发现这是一个关于“技能树”或“知识图谱”的开源项目。简单来说，它试图用一种结构化的…

2026/5/19 0:01:12 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/19 4:14:12 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/19 0:56:48 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/19 0:13:34 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/19 0:00:02 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/18 19:34:27 阅读更多

相关文章