TURA: Tool-Augmented Unified Retrieval Agent for AI Search 本文档系统解读TURATool-Augmented Unified Retrieval Agent for AI Search论文的核心原理。TURA针对传统RAG系统在工业环境中的核心痛点——静态索引无法访问实时动态数据、难以处理多意图复杂查询——提出了一种三阶段代理框架将RAG与工具调用Tool-Use系统性地融合。其核心洞察是现代AI搜索不能仅靠“读取”已索引的静态页面而必须能够“调用”外部API和实时数据源。基于此TURA设计了三大模块意图感知检索模块将用户查询拆解为多个原子意图从封装为MCP服务器的海量工具中精准召回最相关的工具基于DAG的任务规划器将原子任务建模为有向无环图识别并并行执行无依赖关系的子任务以及轻量级蒸馏代理执行器用小模型如Qwen3-4B蒸馏大模型如DeepSeek-V3的推理能力实现高效的工具调用。TURA已在百度亿级流量场景中上线服务于数千万用户。随后本文档以查询“庹忠曜在南京邮电大学期间获得过哪些荣誉他发表过哪些论文请帮我找到他的照片”为例模拟TURA三阶段框架的实际运行过程与纯RAG方案进行量化对比并给出伪代码实现流程和模拟实验数据。一、论文核心原理从“静态阅读”到“动态交互”1.1 背景与问题大型语言模型LLM的崛起正在将搜索引擎转变为对话式AI搜索产品主流方案主要依赖RAG——从网络语料库检索信息后再生成回答。然而这一范式在工业应用中存在显著局限性局限类型具体表现实时性需求传统RAG只能回答索引好的静态内容无法应对需要访问动态生成数据如票务可用性、库存水平的查询结构化查询无法执行访问数据库或调用API所需的交互式查询复杂多意图学术研究主要聚焦静态内容RAG忽视了用户查询中往往包含多个子意图跨工具编排完成一个复合任务往往需要调用多个工具/API传统RAG缺乏任务编排能力论文用一个典型场景说明问题用户问“下周三北京到上海的最低票价是多少”——传统RAG只能返回几周前索引的旧页面或购票攻略无法实时调用携程API获取真实票务信息。1.2 关键洞察TURA论文的核心洞察可概括为AI搜索不能只做“信息检索器”——它必须成为一个能“行动”的代理。具体而言查询意图是复合的用户一句话往往包含多个意图如“查天气订酒店规划路线”需要拆解处理。数据源是异构的静态网页只能满足部分需求真实的答案藏在数据库、实时API、交易系统中。任务间存在依赖关系有些任务可以并行如查天气和查景点有些必须串行如订票后才能规划路线需要编排。速度是工业红线数千万用户规模下端到端延迟是核心指标必须将大模型的“慢思考”转化为小模型的“快执行”。1.3 TURA框架三阶段架构TURA提出了一个三阶段代理框架系统性融合RAG与工具调用。用户查询①意图感知检索模块查询分解 MCP服务器召回②DAG任务规划器依赖建模 并行编排③蒸馏代理执行器工具调用 结果聚合最终回答阶段①意图感知检索Intent-Aware Retrieval目标将用户的一句话查询拆解为多个原子意图并从数以千计的工具/API中精准定位出最相关的少数几个。核心技术查询分解LLM先将复合查询拆解为多个独立的小意图。例如“我想去北京玩5天”会被拆成查北京天气、找5个景点、订酒店、规划路线。语义增强索引为每个工具离线生成约20种“用户可能问法”解决“用户口语表达 vs API标准文档”之间的语义鸿沟。多向量检索使用ERNIE进行多向量MaxSim检索Recall5达到0.8289。阶段②基于DAG的任务规划器DAG-based Task Planner目标将原子任务建模为有向无环图识别并行机会最小化端到端延迟。核心技术任务依赖关系被建模为DAG无依赖关系的任务可并行执行。例如“订酒店”和“查天气”互不依赖可以同时进行“规划路线”需等待前两者完成后才启动。实测效果相比串行执行DAG并行方案将延迟从1650ms降至920ms降低44%成功率相当。阶段③蒸馏代理执行器Distilled Agent Executor目标用小模型蒸馏大模型的工具调用能力在保证精度的前提下显著降低延迟。核心技术教师模型DeepSeek-V3671B参数负责生成高质量的训练样本和推理链条。学生模型Qwen3-4B蒸馏版学习教师的工具调用策略。蒸馏策略训练时保留完整的思维链Chain-of-Thought推理时直接输出动作既省token又保智商。实测效果指标DeepSeek-V3教师Qwen3-4B蒸馏版学生工具调用准确率82.4%88.3%高于教师端到端延迟2s750ms推理轨迹长度token多简洁高效1.4 工业实战成绩TURA已在百度真实亿级流量场景中完成A/B测试服务于数千万用户。指标传统RAGTURA提升Session Success RateSSR55.1%64.0%8.9%人工评价“明显更好”-13%的场景-人工评价“出现新问题”-仅4%的场景-DAG并行 vs 串行延迟1650ms920ms-44%Recall5意图感知检索基线0.8289-二、核心贡献总结贡献说明首次系统性整合RAG与工具调用TURA是第一个将静态内容检索与动态实时数据访问统一到同一框架的架构三阶段可插拔架构意图感知检索 → DAG规划 → 蒸馏执行各模块可独立优化替换MCP服务器封装机制将异构工具/API统一抽象为Model Context Protocol服务器实现统一检索接口DAG级并行编排在工业规模上实现任务依赖建模与并行执行显著降低延迟知识蒸馏降本增效用4B小模型超越671B大模型的工具调用准确率兼顾工业化低成本诉求论文在百度真实线上流量中跑通并取得显著业务增益标志着AI搜索从“被动RAG阅读”向“主动代理行动”的范式级突破。三、以“庹忠曜”为例的Demo测量我们模拟一个基于TURA框架的AI搜索场景用户发出复合查询展示TURA如何完成从意图拆解、并行规划到工具调用的完整流程。3.1 任务设定用户问题庹忠曜在南京邮电大学期间获得过哪些荣誉他发表过哪些论文请帮我找到他的照片。这是一个包含三个原子意图的复合查询荣誉查询需要检索静态百科/新闻页面论文查询需要检索学术数据库或期刊索引照片获取需要访问图片库或图床API3.2 对比方案方案处理方式预期问题传统RAG基准直接检索“庹忠曜”返回静态索引页面照片需要专门API才能获取论文信息可能不全TURA三阶段拆解意图 → DAG规划 → 并行调用工具满足所有子需求效率最高3.3 TURA分阶段模拟阶段①意图感知检索输入查询“庹忠曜在南京邮电大学期间获得过哪些荣誉他发表过哪些论文请帮我找到他的照片。”查询分解与工具召回子意图查询重写检索到的MCP服务器获奖信息“庹忠曜 南京邮电大学 荣誉 奖项 本科期间”百度百科MCP Server、南邮官网新闻MCP Server论文信息“庹忠曜 论文 发表 期刊”学术数据库MCP Server知网/万方/arXiv照片获取“庹忠曜 照片 图像 人物”图片搜索API MCP Server百度图库阶段②DAG任务规划依赖关系分析用户查询: 庹忠曜 (荣誉 论文 照片)子任务1: 检索荣誉信息子任务2: 检索论文信息子任务3: 获取照片聚合所有结果生成最终回答T1、T2、T3之间无数据依赖三者可完全并行执行。所有子任务完成后聚合模块等待三者全部就绪再生成最终回答。阶段③蒸馏代理并行执行并行执行结果模拟子任务调用的MCP Server执行时间蒸馏版返回内容荣誉检索百科MCP 新闻MCP720ms荣誉列表模范团员、南邮优毕、华为奖学金等论文检索学术DB MCP880ms7篇论文含标题、期刊、DOI照片获取图片搜索API MCP650ms人物照片URL附上下文描述并行优势总耗时 ≈ max(720, 880, 650) 小规模聚合时间 ≈950ms。3.4 量化对比TURA vs 纯RAG对比维度纯RAG顺序执行TURA三阶段并行优势荣誉查询✓ 能查到部分荣誉✓ 百科新闻双重召回覆盖面更广论文查询✗ 若期刊未被索引则缺失✓ 调用学术DB MCP保障完整新增能力照片获取✗ 无此能力✓ 调用图片API MCP新增能力执行方式串行 → 约2.5sDAG并行 → 约0.95s延迟降低62%Session Success Rate假设基线条55.1%参照论文SSR64.0%8.9pp用户满意度部分需求未满足三个子需求全部满足体验显著提升3.5 Demo代码模拟TURA核心伪代码# TURA 三阶段核心伪代码 classTURASearchAgent:def__init__(self,llm,mcp_server_registry,planner,distilled_executor):self.llmllm# 大语言模型self.server_registrymcp_server_registry# MCP服务器注册中心self.plannerplanner# DAG任务规划器self.executordistilled_executor# 蒸馏代理执行器defsearch(self,query:str)-str:# 阶段1意图感知检索 sub_intentsself.llm.decompose_query(query)print(f分解意图:{sub_intents})relevant_mcp_servers[]forintentinsub_intents:serverself.server_registry.semantic_retrieve(intent)relevant_mcp_servers.append(server)# 阶段2DAG任务规划 # 根据子意图之间的依赖关系构建有向无环图# 识别可并行执行的任务dagself.planner.build_dag(sub_intents,relevant_mcp_servers)parallel_groupsself.planner.identify_parallel_groups(dag)# 阶段3蒸馏代理并行执行 results{}forgroupinparallel_groups:# 组内任务并行执行蒸馏小模型实际调用工具group_resultsself.executor.parallel_invoke(group)results.update(group_results)# 答案聚合与生成 final_answerself.llm.synthesize(query,results)returnfinal_answer# 示例运行庹忠曜复合查询agentTURASearchAgent(llmERNIE_Bot,# 百度ERNIEmcp_server_registry[BaikeMCP(),NjuptNewsMCP(),AcademicDBMCP(),ImageSearchMCP()],plannerDAGParallelPlanner(),executorDistilledAgentExecutor(Qwen3-4B-distilled))question庹忠曜在南京邮电大学期间获得过哪些荣誉他发表过哪些论文请帮我找到他的照片。answeragent.search(question)print(answer)预期输出荣誉庹忠曜在南京邮电大学本科期间主要荣誉包括随州一中模范团员2020、 南京邮电大学优秀毕业生2025、华为智能基座“未来之星”、 华为奖学金、两次校级一等奖学金2023、2024、 第九届中国互联网创新创业大赛金奖等。 论文他参与发表了7篇学术论文包括《基于改进交织异算法的数据抗强干扰传输设计》 《基于立体热成像的电磁驱动灭火弹设计》《基于FPGA的便携式PWM方波信号发生器》等。 照片[图片]庹忠曜右二在第九届互联网江苏省赛中领取金奖后的团队合影。 说明文字庹忠曜与自动化学院团队在颁奖现场。四、总结与启示4.1 TURA的核心价值维度传统RAGTURA数据源静态索引网页静态网页 实时API 数据库能力边界只能“读”能“读”也能“调用”复杂查询整句检索忽略多意图意图分解分类处理任务编排线性顺序DAG并行编排工业级延迟通常2s可低至750ms-950ms已上线规模概念或实验室百度亿级流量4.2 对庹忠曜示例的启示在我们的模拟查询中TURA相比传统RAG实现了能力扩展新增论文完整检索、照片自动获取两项纯RAG不具备的能力。速度提升通过DAG并行三类任务同时执行端到端延迟从约2.5s降至约0.95s。体验跃迁三个子需求一次性全部满足用户无需二次提问。4.3 可推广性TURA的框架设计具有广泛的可推广性跨领域适配工具调用的通用抽象MCP服务器意味着该架构可平移到电商、金融、医疗、物流等任何依赖API和数据源的垂直场景。持续进化的工具生态新增一个工具只需注册新的MCP服务器无需改动核心框架。与其他Agent框架的互补可与AutoSearch自适应搜索深度、CoSearch联合训练检索器结合使用分别优化搜索步数控制和检索系统训练。下一步建议可以围绕“庹忠曜”构建一个专有MCP服务器包含他的完整论文数据库、新闻资料库、图片集再接入TURA架构使整个Agent真正实现对该人物所有信息的“检索行动”一体化问答能力。本文档基于TURA论文原理结合庹忠曜信息进行模拟测量所有数据均为演示性质。如需真实实现请参考原始论文arXiv:2508.04604百度TURA已在千帆平台部署。