这项由中国人民大学高岭人工智能学院与北京人工智能研究院联合开展的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.24486感兴趣的读者可通过该编号查阅完整原文。设想一下这样一个场景你是一名侦探接到了一起极其复杂的案子需要在浩如烟海的线索中找出真相。单枪匹马地调查你可能在某条死胡同里耗费大量时间却对其他重要线索一无所知。现在如果你有几位搭档同时出发各自追查不同方向然后通过一本共享的案件笔记本随时更新各自的发现——哪条线索被排除了、哪条看起来很有希望——那么整个破案效率将会大幅提升。这正是AgentFugue这项研究所做的事情让多个AI侦探共享一本推理笔记本协力破解复杂任务。在当前的人工智能领域研究者们一直在努力让AI能够完成那些需要长时间、多步骤推理的复杂任务比如深度网络搜索、跨文档信息整合、多领域专业问题解答等。过去的主流思路是强化单个侦探给AI装备更强大的大脑更强的基础模型、更多的调查工具工具调用能力、更好的办案流程智能体脚手架。这个路线确实有效但它本质上只是让一个侦探变得更厉害而不是让多个侦探形成真正的合力。研究团队注意到此前也有人尝试过多智能体的路线但那些方案大多像是给多名侦探分配了不同的固定职责——一个负责搜证、一个负责分析、一个负责汇总。这种分工协作固然有效但它预设了角色限制了灵活性。研究团队想探索一个更纯粹的问题如果多个能力相当的侦探同时调查同一个案子彼此之间没有预定的角色分工只是实时共享各自的推理进展能不能产生真正的协同增益这项研究提出的AgentFugue框架给出了肯定的答案而且用一个极具美感的比喻命名了这个系统——赋格曲Fugue。在巴洛克音乐中赋格曲是一种多声部作品多个声部各自独立演奏旋律却彼此呼应、相互发展最终形成一个远比任何单一声部都丰富的整体。AgentFugue中的多个AI智能体正像赋格曲中的声部一样各自独立探索却通过一个共享的推理枢纽相互借鉴对方已经发现或已经排除的线索。一、为什么多个侦探不等于更强的侦探要理解AgentFugue解决的核心问题需要先明白为什么简单地增加侦探数量并不能自动提升破案质量。在侦探的世界里每一次调查都是在一个巨大的可能性空间中搜寻。这个空间里有正确的线索也有无数条死胡同。一个优秀的单人侦探会顺着某些线索深入但由于时间和精力有限他只能覆盖这个空间的一小部分。另一个侦探独立调查同一个案子可能会走进完全不同的方向覆盖另一片区域。研究团队将这个概念形式化为目标知识空间解决一个复杂任务所需的全部证据和推理链构成一个完整的知识空间。每个单独的侦探智能体在探索过程中只能发现这个完整空间的一个子集。如果多个侦探各自独立工作他们的发现加在一起可能覆盖更大的范围但如果彼此不沟通每个侦探都不知道其他人已经排除了哪些死胡同仍然会重复无用的工作。另一个极端同样有问题如果侦探们把所有调查笔记都不加筛选地共享案件笔记本会很快被冗余信息淹没真正有价值的线索反而会被噪音遮盖而且所有侦探可能会因为看到同一条最有希望的线索而不约而同地收敛到同一个方向失去了多路探索的多样性。因此真正的挑战在于如何让多个侦探有选择性地共享彼此的推理进展既能互相借鉴有价值的发现又能保持各自探索方向的独立性这就是AgentFugue的核心设计目标。二、共享推理枢纽那本关键的案件笔记本AgentFugue的核心组件是一个被称为共享推理枢纽Shared Reasoning Hub的机制可以把它理解为一本所有侦探共用的智能案件笔记本。这本笔记本不是由某个主侦探主导管理的而是一个独立的、平等服务于所有侦探的外部工具。当一个侦探智能体在调查过程中积累了足够多的信息达到一个预设的书写时机时他会把当前阶段的调查进展压缩成一份简洁的案情摘要episode note记录到共享笔记本中。这份摘要不是简单地抄录所有调查细节而是经过精心提炼的确认了什么事实、尝试了哪些方向但失败了、还有哪些疑问悬而未决。写完之后侦探自己工作区里的详细记录被这份精简摘要替换从而腾出空间继续调查新的方向。这个设计解决了一个很实际的问题AI智能体有工作记忆的上限就像人脑一样不能同时记住无限多的细节。通过把已完成阶段的信息压缩归档侦探的工作记忆始终保持清爽可以专注于当前的探索而不会被过去的海量细节所拖累。另一方面当一个侦探比如侦探A在调查过程中遇到困境或者意识到某个方向可能与另一个侦探侦探B正在探索的领域有关时他可以向共享笔记本发出一个有针对性的查询请求。这个请求包含两部分一是他的查询意图也就是他现在具体想知道什么二是他想要深入阅读的具体摘要编号他已经通过浏览笔记本上的摘要列表知道哪些摘要可能相关。收到查询请求后共享笔记本推理枢纽会从档案中取出那份摘要对应的完整原始记录然后根据侦探A的具体查询意图从中提炼出最相关的信息生成一份定制化的读取报告反馈给侦探A。这就好比侦探A对笔记本说我现在在追查嫌疑人在某年某月的行踪B已经调查过他的朋友圈能帮我从B的笔记中整理出与此相关的部分吗这种两级设计非常精妙粗粒度的摘要让每个侦探能快速了解同伴的调查进展全貌而细粒度的意图驱动查询则让侦探在真正需要深入某个细节时才调取完整信息避免了信息过载。研究团队将整个侦探团队的工作状态形式化描述为每个侦探的当前工作区包含自己过去阶段的摘要、已查阅的其他侦探的摘要以及当前正在进行的实时调查记录。三、让笔记本更聪明从模仿学习到强化学习共享推理枢纽本身也是一个AI模型需要经过专门的训练才能发挥最大作用。研究团队使用了一个规模适中的语言模型基于Qwen3.5-9B来实现笔记本的写入和读取功能并通过两个阶段的训练来提升它的能力。第一阶段是模仿学习阶段。研究团队让一个能力更强的教师模型观察完整的调查过程为每个阶段生成高质量的示范摘要以及每次查询请求的示范回答。然后推理枢纽模型通过大量学习这些示范样本掌握如何写好摘要和如何回答查询的基本技能——就像一个新来的文员通过大量阅读优秀前辈写的案情报告来学习写作规范。第二阶段是端到端强化学习阶段这是让笔记本真正聪明起来的关键。在这个阶段推理枢纽模型被放入完整的多侦探协作系统中接受真实的任务考验。每次协作的最终成果任务完成质量都会作为奖励信号反馈给推理枢纽推动它不断调整自己的写作和查询回答策略。特别之处在于侦探们任务智能体自己在这个阶段是冻结的不会发生改变。所有的优化压力都集中在推理枢纽上迫使它学会生成真正对侦探们有用的摘要和回答而不只是表面上看起来规范的内容。强化学习的奖励函数也很有意思它不只奖励最终任务成功还有一个简洁奖励——倾向于奖励那些能让侦探团队用更少步骤完成任务的笔记本输出。这意味着推理枢纽要学会提供真正有用的信息而不是空洞的废话因为高质量的引导能帮助侦探少走弯路。四、同质团队与异质团队两种不同的协作化学反应研究团队设计了两种不同的侦探团队配置来测试AgentFugue的效果揭示了不同情境下协作增益的不同来源。同质团队顾名思义就是所有侦探都来自同一个门派——使用完全相同的AI模型和配置。在这种团队中每个侦探的能力底色是一样的任何协作增益只能来自多路探索的多样性以及通过共享笔记本实现的信息互补。你可以把它理解为几个受过相同训练的警探分头调查他们的思维方式相近但因为探索的方向不同每个人都可能在对方没有涉足的地方发现新线索。异质团队则更像一个由不同专业背景侦探组成的特别行动组一个擅长互联网信息搜索一个擅长逻辑推理一个擅长跨语言文档分析。他们不仅探索方向不同连思维方式、知识储备、擅长领域都不一样因此通过共享笔记本交换的信息往往对彼此更有异质性价值——对方发现的东西正是自己思维盲区里的东西。这种区分不只是理论上的在实验结果中体现得非常清晰后面会详细介绍。五、三大考场全面检验研究团队选择了三个极具挑战性的长任务基准测试来检验AgentFugue的实力每个测试考察的都是不同类型的推理能力。第一个考场是BrowseComp这是专门为网络深度挖掘设计的测试。每道题都需要AI进行多跳网络搜索——先找到一条线索顺着这条线索找到下一条再继续追查最终从多个分散的网页中拼凑出一个简短但精确的事实答案。题目的设计刻意保证了无法通过单次搜索直接找到答案必须像真正的调查记者一样层层深挖。第二个考场是WideSearch与BrowseComp的深度挖掘路线相反WideSearch考察的是广度覆盖。任务要求AI从大量平行的、相互独立的信息源中收集和整合信息比如汇总某类实体的多个属性或者从众多独立来源构建一张信息全面的表格。评判标准是覆盖率——遗漏任何一条重要信息都会扣分。第三个考场是HLEHumanitys Last Exam人类最后的考试这是一个由各领域专家精心设计的综合推理测试涵盖数学、自然科学、社会科学和人文学科。与前两个测试不同HLE更多考察的是深度的多步骤逻辑推理而不是网络搜索导航因此可以验证AgentFugue的协作增益是否能超越搜索密集型任务推广到更广泛的推理场景。在效率方面为了保证测试的公平性所有多智能体系统都使用相同的每个智能体工具集合在BrowseComp和WideSearch上提供网络搜索和页面访问工具在HLE上额外提供Python执行环境和学术文献搜索工具。同时每个问题的总交互轮数预算被严格控制在150轮以内AgentFugue中每个侦探最多用150轮对比的多智能体基准系统中主控智能体和子智能体共享这150轮预算。六、谁是对手三组参照系为了让结果有意义研究团队设置了三组对比参照覆盖了从单兵作战到不同协作方式的完整谱系。第一组对手是单兵ReAct侦探也就是单个使用标准推理-行动循环的前沿AI模型包括Claude-Opus-4.5、Kimi-K2.5、Qwen3.5-35B-A3B、GLM-4.7和DeepSeek-v4-Flash。这组对比代表了把单个侦探做到最强的路线能走多远。第二组对手是深度研究专家系统这些是专门为长任务网络研究设计的单智能体系统配备了更复杂的脚手架搜索规划、摘要记忆、迭代优化WebThinker、WebSailor、AgentFold、IterResearch、Tongyi-DeepResearch和OpenAI DeepResearch。这些系统代表了单智能体在复杂任务上已经达到的最高水平。第三组对手也是多智能体系统是最直接的比较对象。第一种叫做朴素多智能体采用经典的规划-并行搜索-汇总流程一个主控智能体先把问题分解成子任务分配给多个子智能体并行完成子智能体各自独立工作后提交报告主控智能体再综合报告给出最终答案。这是一种垂直协调结构协作只发生在任务分配和最终汇总两个节点。第二种叫做蜂群多智能体主控智能体可以随时创建专属子智能体并分配任务比朴素版更灵活但子智能体之间的信息交流依然只能通过主控智能体中转依然是最终答案式的汇报而非中间推理过程的共享。与这两种多智能体方案相比AgentFugue最根本的区别在于协作是水平的发生在同伴侦探之间而非垂直的通过一个居高临下的主控智能体来中转协作发生在探索进行中而非只在最终汇报时。七、数字说话AgentFugue赢在哪里实验结果令人信服。在相同骨干模型下AgentFugue在每个基准测试上都超越了对比的多智能体方案并且跨越了不同任务类型。以DeepSeek-v4-Flash为骨干模型的团队为例AgentFugue在BrowseComp上达到了71.2分而同样使用这个模型的蜂群多智能体只有56.2分提升了整整15分。在推理密集型的HLE上AgentFugue以49.5分击败了蜂群的44.0分。在广度覆盖的WideSearch上AgentFugue同样以74.2分领先于蜂群的72.7分。以Qwen3.5-35B-A3B为骨干的团队也呈现相同的规律AgentFugue在三个测试上均优于其他多智能体方案综合平均分54.4分别比蜂群和朴素版高出5.4和5.9分。与单智能体的顶尖系统相比AgentFugue同样表现优异DeepSeek骨干的AgentFugue以71.2分在BrowseComp上大幅超越了OpenAI DeepResearch的51.5分也超越了Kimi-K2.5的60.6分。考虑到Kimi-K2.5本身就是极为强大的前沿模型这个结果说明协作增益是真实的不仅仅是因为底层模型更强。这些结果覆盖了检索密集、推理密集、广度密集三种截然不同的任务类型说明共享推理枢纽是一种通用的协调原语而非专门针对某类任务的技巧。八、添加侦探效果如何变化同质团队的规模实验研究团队进一步做了一项细致的实验专门研究在同质团队中不断增加侦探数量团队规模N从1增长到2、3、5、8AgentFugue的表现如何变化。实验在BrowseComp的100题子集上进行所有侦探都使用相同的Qwen3.5-35B-A3B模型。结果揭示了一个有趣的双重规律。从每个侦探自身的表现来看随着团队扩大每个侦探的平均准确率确实在上升从N1时的36分攀升到N2时的44分、N3时的51.7分到N5时达到57.6分的峰值。然而到N8时略微回落到55.8分说明每个侦探所能从共享笔记本中吸收的有益信息有一个上限——就像一个人能消化的同伴信息有限超过某个点后增加更多侦探带来的边际效益开始递减。从整个团队协作层面看即使每个侦探的平均表现在N5后趋于平稳团队整体的覆盖带宽不同侦探之间的最高和最低分差距依然保持宽广说明各侦探的探索路径没有收敛——团队保持了多样性这对于聚合策略从多个答案中选出最佳答案依然有价值。与此同时随着团队扩大工作模式发生了清晰的转变每个侦探的搜索和页面访问次数单调递减N1时每人约10.24次搜索、30.25次页面访问N8时降至7.01次搜索、20.35次页面访问而每道题上的笔记本查询次数则单调递增从0.83次增至2.60次。直观地说团队越大每个侦探越省力因为可以从队友那里继承部分调查成果代价是更多地依赖共享笔记本进行协调。这是一个纯粹的协作经济效应。九、不同模型的侦探联手异质团队的惊喜研究团队还做了另一组更有趣的实验从单个Qwen3.5-35B-A3B模型的侦探出发依次加入DeepSeek-v4-Flash、GLM-4.7、Kimi-K2.5形成一个包含越来越多不同流派侦探的团队N从1增至4。结果非常令人振奋。每种模型的侦探在团队协作后个人表现都超过了它独立作战时的基准线。最关键的发现是能力较弱的侦探获益最大弱者被强者带飞的效果非常显著——弱者的提升幅度远超强者甚至连本来就很强的Kimi-K2.5加入团队后也获得了一定提升说明共享笔记本即使对顶级侦探也能提供有价值的增量信息。异质团队的工作模式与同质团队明显不同。当第二种模型加入时团队的总体搜索量反而短暂增加了因为新来的侦探带来了完全不同的探索方向开辟了新的调查领域之后随着互相借鉴、继承成果才逐渐下降。更显著的是异质团队的笔记本查询频率远高于同质团队——在相近的团队规模下异质团队的笔记本查询次数是同质团队的数倍。背后的逻辑很直观来自不同模型的侦探思维方式和知识盲区不同因此从对方笔记中发现的信息对自己来说更新颖、更有价值更值得主动查阅。从团队整体答案质量的角度异质团队的不同聚合策略按信心最高选答案、按多数投票选答案、按最少工具调用选答案等都随着团队规模增大而单调提升说明规模效益是真实存在的不依赖于特定的答案选择策略。而且与同质团队相比异质团队中不同聚合策略的结果更接近说明当侦探们来自不同模型时他们的答案更独立、更分散相互之间的共识更有意义。十、上下文窗口的甜蜜点消融实验的发现研究团队还系统测试了一个关键参数每个侦探的书写时机也就是积累多少信息后才把当前阶段归档到共享笔记本。他们在N2的团队规模下把这个参数从16K、32K、64K、96K一直测试到128K。结果呈现出一条优美的倒U形曲线准确率在32K时达到峰值向两侧都下降。太小16K意味着每次归档时内容太少证据还没有充分积累就被打断太大96K、128K则意味着每次归档的内容太多、太杂其中混入了大量过时或低价值的信息稀释了真正有用的部分还给笔记本的注意力带来了负担。有趣的是研究团队在主要实验中使用的是64K的设置而最优的32K反而表现更好在Pass2指标上高出整整8分。这说明论文主表中报告的数字其实是保守的下界如果针对具体任务调优这个参数AgentFugue还能进一步提升——这也意味着实验中呈现的结论是低估而非高估了这个方法的潜力。十一、成功的侦探协作是什么样子的研究团队通过具体案例展示了共享笔记本在实践中如何发挥作用这些案例让抽象的机制变得鲜活。在一个成功案例中问题是关于19世纪上海一家商店的成立年份正确答案是1853年。侦探1和侦探2分别调查后都没能找到最终答案他们的笔记本记录写明商店仍未被确认。侦探0在第34步调用了侦探1的笔记获得的不是答案而是一份详细的失败地图列出了所有被排查过的候选店铺诚信公司、永安公司、新新公司等以及每家被排除的具体原因成立太晚、与横滨正金银行无关联等并明确标注了仍然悬而未决的方向一家经营外国布料的东上海商店。侦探0看到这份失败地图后没有从头再来而是直接利用队友已经缩小的搜索范围顺着东门外国布料这个方向重新搜索找到了一份学术PDF其中明确记载了大丰商店创立于1853年由翁念丰创办最终正确回答了问题。这个案例完美展示了共享笔记本传递的不是答案本身而是过程状态——哪些路走死了、还有哪些方向值得探索——这才是真正有价值的协作信息。与此形成对比的是一个失败案例。另一个问题包含八个必须同时满足的严格约束条件某历史建筑的建造年代、附近大学的在校人数区间、曾被用作监狱的战争数量、城市人口范围等。侦探们发出了多达10次的笔记本查询比任何其他问题都多最终却给出了错误答案。失败的根源很微妙共享笔记本忠实地记录了一个候选答案得克萨斯州的中央州立农场主楼同时满足了其中几个约束条件却也记录了它明确不满足另外几个条件。然而因为笔记本在自然语言总结中反复强调它是唯一确认满足某两个关键条件的候选这个正面特征在多个侦探的反复查阅中被放大而硬性排除条件不满足第7条、不满足第8条则在最终决策时被忽视。侦探们的推理最终演变为虽然有些条件不完全符合但考虑到线索的特殊性这仍然是最可能的答案——一种经典的确认偏误。研究团队据此指出对于多约束问题笔记本需要更结构化的状态表示比如明确区分活跃候选、已排除、硬性失败并需要一个最终答案门禁机制阻止任何带有已记录硬性失败的候选答案被最终选择。十二、方法的边界与未来的方向研究团队对AgentFugue的局限性保持了清醒的认识在论文中进行了诚实的讨论。当前的实验只覆盖了有限的模型规模和配置推理枢纽使用的是9B规模的模型目前还不清楚更大或更强的枢纽模型是否会带来更大的增益。实验场景也局限于长任务问答类基准尚未在开放式报告撰写、持续软件工程或更丰富工具生态系统的实际工作流中验证。此外集体推理本身带来了新的风险如果某个侦探的笔记质量低下、不完整或过度自信错误信息可能通过共享笔记本扩散到整个团队如果多个侦探反复查阅相同的高显著性笔记探索多样性可能逐渐收缩形成信息茧房效应早期的错误假设一旦传播开来可能很难被后续侦探纠正。研究团队认为更好的置信度校准、多样性感知的查询策略、以及更自适应的笔记选择机制是值得深入探索的未来方向。从更宏观的社会影响角度这类能够协调多个智能体收集证据、整合发现的系统既可以用于科学辅助、开放式研究和调查分析等积极方面也存在被用于大规模信息监控、操纵性内容生成等负面应用的风险。研究团队认为未来的部署应当考虑访问控制、使用监控、置信度感知的枢纽输出以及防止过度同步化的多样性保护机制。说到底AgentFugue这项研究的核心贡献不仅仅是一个新的技术框架更是一种新的思维方式AI能力的增长不一定只能靠让单个智能体变得更强也可以靠让多个智能体形成真正意义上的集体智慧。这种集体智慧的秘密不在于角色分工不在于谁指挥谁而在于那本让每个侦探都能从队友的探索历程中汲取营养的智能案件笔记本。每当一个侦探在某条死胡同里绕了圈子把这段历程记入笔记本就是在为整个团队减少重复劳动。每当另一个侦探因为看到队友的发现而豁然开朗、转换方向就是集体智慧真实发生的瞬间。多声部的赋格曲因此变得比任何单一旋律都更丰富。对于那些有兴趣深入了解具体实现细节的读者可以通过arXiv编号2605.24486查找原论文该研究的代码已在GitHub上开源地址在论文中有明确说明。QAQ1AgentFugue中的共享推理枢纽和普通的多智能体系统有什么本质区别A普通多智能体系统的协作通常通过主控智能体居中调度子智能体只在任务结束后汇报结果互相之间看不到彼此的中间推理过程。AgentFugue的共享推理枢纽是一个独立的外部笔记本每个智能体随时可以把阶段性发现写入其中其他智能体也可以在推理过程中主动查询获取针对当前需求定制的信息摘要。协作是水平发生在同伴之间的而且贯穿整个探索过程不只是在最终汇总阶段。Q2AgentFugue中同质团队和异质团队哪种效果更好A两种团队都有明显效果但增益来源不同。同质团队所有智能体使用相同模型的增益主要来自多路探索的互补笔记本查询频率相对较低。异质团队不同模型组合由于各模型思维方式和知识盲区不同彼此发现的信息对对方更有新颖价值笔记本查询频率更高团队整体的表现提升也更快在相同团队规模下通常达到更高的总体准确率。Q3AgentFugue的共享推理枢纽会不会把错误信息扩散给整个团队A这是研究团队明确指出的一个已知风险论文中的失败案例正好展示了这种情况。当一个智能体对某个候选答案的部分特征过度强调而对其不符合条件的方面描述不够显著时后续查阅这份笔记的智能体可能会放大那个正面特征产生确认偏误。研究团队建议未来改进方向包括使用结构化状态标签明确区分已排除与活跃候选和设置最终答案门禁阻止带有已记录硬性失败的候选被最终选中。
人大与北京智源打造的“赋格曲“式智能体协作系统
发布时间:2026/6/3 9:00:42
这项由中国人民大学高岭人工智能学院与北京人工智能研究院联合开展的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.24486感兴趣的读者可通过该编号查阅完整原文。设想一下这样一个场景你是一名侦探接到了一起极其复杂的案子需要在浩如烟海的线索中找出真相。单枪匹马地调查你可能在某条死胡同里耗费大量时间却对其他重要线索一无所知。现在如果你有几位搭档同时出发各自追查不同方向然后通过一本共享的案件笔记本随时更新各自的发现——哪条线索被排除了、哪条看起来很有希望——那么整个破案效率将会大幅提升。这正是AgentFugue这项研究所做的事情让多个AI侦探共享一本推理笔记本协力破解复杂任务。在当前的人工智能领域研究者们一直在努力让AI能够完成那些需要长时间、多步骤推理的复杂任务比如深度网络搜索、跨文档信息整合、多领域专业问题解答等。过去的主流思路是强化单个侦探给AI装备更强大的大脑更强的基础模型、更多的调查工具工具调用能力、更好的办案流程智能体脚手架。这个路线确实有效但它本质上只是让一个侦探变得更厉害而不是让多个侦探形成真正的合力。研究团队注意到此前也有人尝试过多智能体的路线但那些方案大多像是给多名侦探分配了不同的固定职责——一个负责搜证、一个负责分析、一个负责汇总。这种分工协作固然有效但它预设了角色限制了灵活性。研究团队想探索一个更纯粹的问题如果多个能力相当的侦探同时调查同一个案子彼此之间没有预定的角色分工只是实时共享各自的推理进展能不能产生真正的协同增益这项研究提出的AgentFugue框架给出了肯定的答案而且用一个极具美感的比喻命名了这个系统——赋格曲Fugue。在巴洛克音乐中赋格曲是一种多声部作品多个声部各自独立演奏旋律却彼此呼应、相互发展最终形成一个远比任何单一声部都丰富的整体。AgentFugue中的多个AI智能体正像赋格曲中的声部一样各自独立探索却通过一个共享的推理枢纽相互借鉴对方已经发现或已经排除的线索。一、为什么多个侦探不等于更强的侦探要理解AgentFugue解决的核心问题需要先明白为什么简单地增加侦探数量并不能自动提升破案质量。在侦探的世界里每一次调查都是在一个巨大的可能性空间中搜寻。这个空间里有正确的线索也有无数条死胡同。一个优秀的单人侦探会顺着某些线索深入但由于时间和精力有限他只能覆盖这个空间的一小部分。另一个侦探独立调查同一个案子可能会走进完全不同的方向覆盖另一片区域。研究团队将这个概念形式化为目标知识空间解决一个复杂任务所需的全部证据和推理链构成一个完整的知识空间。每个单独的侦探智能体在探索过程中只能发现这个完整空间的一个子集。如果多个侦探各自独立工作他们的发现加在一起可能覆盖更大的范围但如果彼此不沟通每个侦探都不知道其他人已经排除了哪些死胡同仍然会重复无用的工作。另一个极端同样有问题如果侦探们把所有调查笔记都不加筛选地共享案件笔记本会很快被冗余信息淹没真正有价值的线索反而会被噪音遮盖而且所有侦探可能会因为看到同一条最有希望的线索而不约而同地收敛到同一个方向失去了多路探索的多样性。因此真正的挑战在于如何让多个侦探有选择性地共享彼此的推理进展既能互相借鉴有价值的发现又能保持各自探索方向的独立性这就是AgentFugue的核心设计目标。二、共享推理枢纽那本关键的案件笔记本AgentFugue的核心组件是一个被称为共享推理枢纽Shared Reasoning Hub的机制可以把它理解为一本所有侦探共用的智能案件笔记本。这本笔记本不是由某个主侦探主导管理的而是一个独立的、平等服务于所有侦探的外部工具。当一个侦探智能体在调查过程中积累了足够多的信息达到一个预设的书写时机时他会把当前阶段的调查进展压缩成一份简洁的案情摘要episode note记录到共享笔记本中。这份摘要不是简单地抄录所有调查细节而是经过精心提炼的确认了什么事实、尝试了哪些方向但失败了、还有哪些疑问悬而未决。写完之后侦探自己工作区里的详细记录被这份精简摘要替换从而腾出空间继续调查新的方向。这个设计解决了一个很实际的问题AI智能体有工作记忆的上限就像人脑一样不能同时记住无限多的细节。通过把已完成阶段的信息压缩归档侦探的工作记忆始终保持清爽可以专注于当前的探索而不会被过去的海量细节所拖累。另一方面当一个侦探比如侦探A在调查过程中遇到困境或者意识到某个方向可能与另一个侦探侦探B正在探索的领域有关时他可以向共享笔记本发出一个有针对性的查询请求。这个请求包含两部分一是他的查询意图也就是他现在具体想知道什么二是他想要深入阅读的具体摘要编号他已经通过浏览笔记本上的摘要列表知道哪些摘要可能相关。收到查询请求后共享笔记本推理枢纽会从档案中取出那份摘要对应的完整原始记录然后根据侦探A的具体查询意图从中提炼出最相关的信息生成一份定制化的读取报告反馈给侦探A。这就好比侦探A对笔记本说我现在在追查嫌疑人在某年某月的行踪B已经调查过他的朋友圈能帮我从B的笔记中整理出与此相关的部分吗这种两级设计非常精妙粗粒度的摘要让每个侦探能快速了解同伴的调查进展全貌而细粒度的意图驱动查询则让侦探在真正需要深入某个细节时才调取完整信息避免了信息过载。研究团队将整个侦探团队的工作状态形式化描述为每个侦探的当前工作区包含自己过去阶段的摘要、已查阅的其他侦探的摘要以及当前正在进行的实时调查记录。三、让笔记本更聪明从模仿学习到强化学习共享推理枢纽本身也是一个AI模型需要经过专门的训练才能发挥最大作用。研究团队使用了一个规模适中的语言模型基于Qwen3.5-9B来实现笔记本的写入和读取功能并通过两个阶段的训练来提升它的能力。第一阶段是模仿学习阶段。研究团队让一个能力更强的教师模型观察完整的调查过程为每个阶段生成高质量的示范摘要以及每次查询请求的示范回答。然后推理枢纽模型通过大量学习这些示范样本掌握如何写好摘要和如何回答查询的基本技能——就像一个新来的文员通过大量阅读优秀前辈写的案情报告来学习写作规范。第二阶段是端到端强化学习阶段这是让笔记本真正聪明起来的关键。在这个阶段推理枢纽模型被放入完整的多侦探协作系统中接受真实的任务考验。每次协作的最终成果任务完成质量都会作为奖励信号反馈给推理枢纽推动它不断调整自己的写作和查询回答策略。特别之处在于侦探们任务智能体自己在这个阶段是冻结的不会发生改变。所有的优化压力都集中在推理枢纽上迫使它学会生成真正对侦探们有用的摘要和回答而不只是表面上看起来规范的内容。强化学习的奖励函数也很有意思它不只奖励最终任务成功还有一个简洁奖励——倾向于奖励那些能让侦探团队用更少步骤完成任务的笔记本输出。这意味着推理枢纽要学会提供真正有用的信息而不是空洞的废话因为高质量的引导能帮助侦探少走弯路。四、同质团队与异质团队两种不同的协作化学反应研究团队设计了两种不同的侦探团队配置来测试AgentFugue的效果揭示了不同情境下协作增益的不同来源。同质团队顾名思义就是所有侦探都来自同一个门派——使用完全相同的AI模型和配置。在这种团队中每个侦探的能力底色是一样的任何协作增益只能来自多路探索的多样性以及通过共享笔记本实现的信息互补。你可以把它理解为几个受过相同训练的警探分头调查他们的思维方式相近但因为探索的方向不同每个人都可能在对方没有涉足的地方发现新线索。异质团队则更像一个由不同专业背景侦探组成的特别行动组一个擅长互联网信息搜索一个擅长逻辑推理一个擅长跨语言文档分析。他们不仅探索方向不同连思维方式、知识储备、擅长领域都不一样因此通过共享笔记本交换的信息往往对彼此更有异质性价值——对方发现的东西正是自己思维盲区里的东西。这种区分不只是理论上的在实验结果中体现得非常清晰后面会详细介绍。五、三大考场全面检验研究团队选择了三个极具挑战性的长任务基准测试来检验AgentFugue的实力每个测试考察的都是不同类型的推理能力。第一个考场是BrowseComp这是专门为网络深度挖掘设计的测试。每道题都需要AI进行多跳网络搜索——先找到一条线索顺着这条线索找到下一条再继续追查最终从多个分散的网页中拼凑出一个简短但精确的事实答案。题目的设计刻意保证了无法通过单次搜索直接找到答案必须像真正的调查记者一样层层深挖。第二个考场是WideSearch与BrowseComp的深度挖掘路线相反WideSearch考察的是广度覆盖。任务要求AI从大量平行的、相互独立的信息源中收集和整合信息比如汇总某类实体的多个属性或者从众多独立来源构建一张信息全面的表格。评判标准是覆盖率——遗漏任何一条重要信息都会扣分。第三个考场是HLEHumanitys Last Exam人类最后的考试这是一个由各领域专家精心设计的综合推理测试涵盖数学、自然科学、社会科学和人文学科。与前两个测试不同HLE更多考察的是深度的多步骤逻辑推理而不是网络搜索导航因此可以验证AgentFugue的协作增益是否能超越搜索密集型任务推广到更广泛的推理场景。在效率方面为了保证测试的公平性所有多智能体系统都使用相同的每个智能体工具集合在BrowseComp和WideSearch上提供网络搜索和页面访问工具在HLE上额外提供Python执行环境和学术文献搜索工具。同时每个问题的总交互轮数预算被严格控制在150轮以内AgentFugue中每个侦探最多用150轮对比的多智能体基准系统中主控智能体和子智能体共享这150轮预算。六、谁是对手三组参照系为了让结果有意义研究团队设置了三组对比参照覆盖了从单兵作战到不同协作方式的完整谱系。第一组对手是单兵ReAct侦探也就是单个使用标准推理-行动循环的前沿AI模型包括Claude-Opus-4.5、Kimi-K2.5、Qwen3.5-35B-A3B、GLM-4.7和DeepSeek-v4-Flash。这组对比代表了把单个侦探做到最强的路线能走多远。第二组对手是深度研究专家系统这些是专门为长任务网络研究设计的单智能体系统配备了更复杂的脚手架搜索规划、摘要记忆、迭代优化WebThinker、WebSailor、AgentFold、IterResearch、Tongyi-DeepResearch和OpenAI DeepResearch。这些系统代表了单智能体在复杂任务上已经达到的最高水平。第三组对手也是多智能体系统是最直接的比较对象。第一种叫做朴素多智能体采用经典的规划-并行搜索-汇总流程一个主控智能体先把问题分解成子任务分配给多个子智能体并行完成子智能体各自独立工作后提交报告主控智能体再综合报告给出最终答案。这是一种垂直协调结构协作只发生在任务分配和最终汇总两个节点。第二种叫做蜂群多智能体主控智能体可以随时创建专属子智能体并分配任务比朴素版更灵活但子智能体之间的信息交流依然只能通过主控智能体中转依然是最终答案式的汇报而非中间推理过程的共享。与这两种多智能体方案相比AgentFugue最根本的区别在于协作是水平的发生在同伴侦探之间而非垂直的通过一个居高临下的主控智能体来中转协作发生在探索进行中而非只在最终汇报时。七、数字说话AgentFugue赢在哪里实验结果令人信服。在相同骨干模型下AgentFugue在每个基准测试上都超越了对比的多智能体方案并且跨越了不同任务类型。以DeepSeek-v4-Flash为骨干模型的团队为例AgentFugue在BrowseComp上达到了71.2分而同样使用这个模型的蜂群多智能体只有56.2分提升了整整15分。在推理密集型的HLE上AgentFugue以49.5分击败了蜂群的44.0分。在广度覆盖的WideSearch上AgentFugue同样以74.2分领先于蜂群的72.7分。以Qwen3.5-35B-A3B为骨干的团队也呈现相同的规律AgentFugue在三个测试上均优于其他多智能体方案综合平均分54.4分别比蜂群和朴素版高出5.4和5.9分。与单智能体的顶尖系统相比AgentFugue同样表现优异DeepSeek骨干的AgentFugue以71.2分在BrowseComp上大幅超越了OpenAI DeepResearch的51.5分也超越了Kimi-K2.5的60.6分。考虑到Kimi-K2.5本身就是极为强大的前沿模型这个结果说明协作增益是真实的不仅仅是因为底层模型更强。这些结果覆盖了检索密集、推理密集、广度密集三种截然不同的任务类型说明共享推理枢纽是一种通用的协调原语而非专门针对某类任务的技巧。八、添加侦探效果如何变化同质团队的规模实验研究团队进一步做了一项细致的实验专门研究在同质团队中不断增加侦探数量团队规模N从1增长到2、3、5、8AgentFugue的表现如何变化。实验在BrowseComp的100题子集上进行所有侦探都使用相同的Qwen3.5-35B-A3B模型。结果揭示了一个有趣的双重规律。从每个侦探自身的表现来看随着团队扩大每个侦探的平均准确率确实在上升从N1时的36分攀升到N2时的44分、N3时的51.7分到N5时达到57.6分的峰值。然而到N8时略微回落到55.8分说明每个侦探所能从共享笔记本中吸收的有益信息有一个上限——就像一个人能消化的同伴信息有限超过某个点后增加更多侦探带来的边际效益开始递减。从整个团队协作层面看即使每个侦探的平均表现在N5后趋于平稳团队整体的覆盖带宽不同侦探之间的最高和最低分差距依然保持宽广说明各侦探的探索路径没有收敛——团队保持了多样性这对于聚合策略从多个答案中选出最佳答案依然有价值。与此同时随着团队扩大工作模式发生了清晰的转变每个侦探的搜索和页面访问次数单调递减N1时每人约10.24次搜索、30.25次页面访问N8时降至7.01次搜索、20.35次页面访问而每道题上的笔记本查询次数则单调递增从0.83次增至2.60次。直观地说团队越大每个侦探越省力因为可以从队友那里继承部分调查成果代价是更多地依赖共享笔记本进行协调。这是一个纯粹的协作经济效应。九、不同模型的侦探联手异质团队的惊喜研究团队还做了另一组更有趣的实验从单个Qwen3.5-35B-A3B模型的侦探出发依次加入DeepSeek-v4-Flash、GLM-4.7、Kimi-K2.5形成一个包含越来越多不同流派侦探的团队N从1增至4。结果非常令人振奋。每种模型的侦探在团队协作后个人表现都超过了它独立作战时的基准线。最关键的发现是能力较弱的侦探获益最大弱者被强者带飞的效果非常显著——弱者的提升幅度远超强者甚至连本来就很强的Kimi-K2.5加入团队后也获得了一定提升说明共享笔记本即使对顶级侦探也能提供有价值的增量信息。异质团队的工作模式与同质团队明显不同。当第二种模型加入时团队的总体搜索量反而短暂增加了因为新来的侦探带来了完全不同的探索方向开辟了新的调查领域之后随着互相借鉴、继承成果才逐渐下降。更显著的是异质团队的笔记本查询频率远高于同质团队——在相近的团队规模下异质团队的笔记本查询次数是同质团队的数倍。背后的逻辑很直观来自不同模型的侦探思维方式和知识盲区不同因此从对方笔记中发现的信息对自己来说更新颖、更有价值更值得主动查阅。从团队整体答案质量的角度异质团队的不同聚合策略按信心最高选答案、按多数投票选答案、按最少工具调用选答案等都随着团队规模增大而单调提升说明规模效益是真实存在的不依赖于特定的答案选择策略。而且与同质团队相比异质团队中不同聚合策略的结果更接近说明当侦探们来自不同模型时他们的答案更独立、更分散相互之间的共识更有意义。十、上下文窗口的甜蜜点消融实验的发现研究团队还系统测试了一个关键参数每个侦探的书写时机也就是积累多少信息后才把当前阶段归档到共享笔记本。他们在N2的团队规模下把这个参数从16K、32K、64K、96K一直测试到128K。结果呈现出一条优美的倒U形曲线准确率在32K时达到峰值向两侧都下降。太小16K意味着每次归档时内容太少证据还没有充分积累就被打断太大96K、128K则意味着每次归档的内容太多、太杂其中混入了大量过时或低价值的信息稀释了真正有用的部分还给笔记本的注意力带来了负担。有趣的是研究团队在主要实验中使用的是64K的设置而最优的32K反而表现更好在Pass2指标上高出整整8分。这说明论文主表中报告的数字其实是保守的下界如果针对具体任务调优这个参数AgentFugue还能进一步提升——这也意味着实验中呈现的结论是低估而非高估了这个方法的潜力。十一、成功的侦探协作是什么样子的研究团队通过具体案例展示了共享笔记本在实践中如何发挥作用这些案例让抽象的机制变得鲜活。在一个成功案例中问题是关于19世纪上海一家商店的成立年份正确答案是1853年。侦探1和侦探2分别调查后都没能找到最终答案他们的笔记本记录写明商店仍未被确认。侦探0在第34步调用了侦探1的笔记获得的不是答案而是一份详细的失败地图列出了所有被排查过的候选店铺诚信公司、永安公司、新新公司等以及每家被排除的具体原因成立太晚、与横滨正金银行无关联等并明确标注了仍然悬而未决的方向一家经营外国布料的东上海商店。侦探0看到这份失败地图后没有从头再来而是直接利用队友已经缩小的搜索范围顺着东门外国布料这个方向重新搜索找到了一份学术PDF其中明确记载了大丰商店创立于1853年由翁念丰创办最终正确回答了问题。这个案例完美展示了共享笔记本传递的不是答案本身而是过程状态——哪些路走死了、还有哪些方向值得探索——这才是真正有价值的协作信息。与此形成对比的是一个失败案例。另一个问题包含八个必须同时满足的严格约束条件某历史建筑的建造年代、附近大学的在校人数区间、曾被用作监狱的战争数量、城市人口范围等。侦探们发出了多达10次的笔记本查询比任何其他问题都多最终却给出了错误答案。失败的根源很微妙共享笔记本忠实地记录了一个候选答案得克萨斯州的中央州立农场主楼同时满足了其中几个约束条件却也记录了它明确不满足另外几个条件。然而因为笔记本在自然语言总结中反复强调它是唯一确认满足某两个关键条件的候选这个正面特征在多个侦探的反复查阅中被放大而硬性排除条件不满足第7条、不满足第8条则在最终决策时被忽视。侦探们的推理最终演变为虽然有些条件不完全符合但考虑到线索的特殊性这仍然是最可能的答案——一种经典的确认偏误。研究团队据此指出对于多约束问题笔记本需要更结构化的状态表示比如明确区分活跃候选、已排除、硬性失败并需要一个最终答案门禁机制阻止任何带有已记录硬性失败的候选答案被最终选择。十二、方法的边界与未来的方向研究团队对AgentFugue的局限性保持了清醒的认识在论文中进行了诚实的讨论。当前的实验只覆盖了有限的模型规模和配置推理枢纽使用的是9B规模的模型目前还不清楚更大或更强的枢纽模型是否会带来更大的增益。实验场景也局限于长任务问答类基准尚未在开放式报告撰写、持续软件工程或更丰富工具生态系统的实际工作流中验证。此外集体推理本身带来了新的风险如果某个侦探的笔记质量低下、不完整或过度自信错误信息可能通过共享笔记本扩散到整个团队如果多个侦探反复查阅相同的高显著性笔记探索多样性可能逐渐收缩形成信息茧房效应早期的错误假设一旦传播开来可能很难被后续侦探纠正。研究团队认为更好的置信度校准、多样性感知的查询策略、以及更自适应的笔记选择机制是值得深入探索的未来方向。从更宏观的社会影响角度这类能够协调多个智能体收集证据、整合发现的系统既可以用于科学辅助、开放式研究和调查分析等积极方面也存在被用于大规模信息监控、操纵性内容生成等负面应用的风险。研究团队认为未来的部署应当考虑访问控制、使用监控、置信度感知的枢纽输出以及防止过度同步化的多样性保护机制。说到底AgentFugue这项研究的核心贡献不仅仅是一个新的技术框架更是一种新的思维方式AI能力的增长不一定只能靠让单个智能体变得更强也可以靠让多个智能体形成真正意义上的集体智慧。这种集体智慧的秘密不在于角色分工不在于谁指挥谁而在于那本让每个侦探都能从队友的探索历程中汲取营养的智能案件笔记本。每当一个侦探在某条死胡同里绕了圈子把这段历程记入笔记本就是在为整个团队减少重复劳动。每当另一个侦探因为看到队友的发现而豁然开朗、转换方向就是集体智慧真实发生的瞬间。多声部的赋格曲因此变得比任何单一旋律都更丰富。对于那些有兴趣深入了解具体实现细节的读者可以通过arXiv编号2605.24486查找原论文该研究的代码已在GitHub上开源地址在论文中有明确说明。QAQ1AgentFugue中的共享推理枢纽和普通的多智能体系统有什么本质区别A普通多智能体系统的协作通常通过主控智能体居中调度子智能体只在任务结束后汇报结果互相之间看不到彼此的中间推理过程。AgentFugue的共享推理枢纽是一个独立的外部笔记本每个智能体随时可以把阶段性发现写入其中其他智能体也可以在推理过程中主动查询获取针对当前需求定制的信息摘要。协作是水平发生在同伴之间的而且贯穿整个探索过程不只是在最终汇总阶段。Q2AgentFugue中同质团队和异质团队哪种效果更好A两种团队都有明显效果但增益来源不同。同质团队所有智能体使用相同模型的增益主要来自多路探索的互补笔记本查询频率相对较低。异质团队不同模型组合由于各模型思维方式和知识盲区不同彼此发现的信息对对方更有新颖价值笔记本查询频率更高团队整体的表现提升也更快在相同团队规模下通常达到更高的总体准确率。Q3AgentFugue的共享推理枢纽会不会把错误信息扩散给整个团队A这是研究团队明确指出的一个已知风险论文中的失败案例正好展示了这种情况。当一个智能体对某个候选答案的部分特征过度强调而对其不符合条件的方面描述不够显著时后续查阅这份笔记的智能体可能会放大那个正面特征产生确认偏误。研究团队建议未来改进方向包括使用结构化状态标签明确区分已排除与活跃候选和设置最终答案门禁阻止带有已记录硬性失败的候选被最终选中。