多轮评估中深度研究代理的过程级反馈作者: Rishabh Sabharwal, Hongru Wang, Amos Storkey, Jeff Z. Pan 来源: arXiv (论文ID: 2606.09748) | 领域: 机器学习ICML 代码与数据: [https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs](https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs%5D(https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs) “https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs%5D(https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs)”)摘要现有深度研究代理Deep Research Agents, DRAs的基准测试仅评估单次输出忽略了关键问题DRAs能否在反馈指导下改进其报告 为此我们进行了多轮评估研究两种反馈设置下的代理行为自反射Self-Reflection代理在不接收外部诊断信号的情况下自行修订报告。过程级反馈Process-Level Feedback代理接收针对其研究策略中缺失的反馈指导。为实现过程级反馈我们设计了**研究差距推理Research Gap Inference, RGI**方法通过分析满足和未满足的规约标准模式来推断研究过程中的差距。我们的分析揭示了三个关键发现在自反射设置下代理满足和回归规约标准的行为几乎持平净改善微乎其微单次过程级反馈带来了显著收益归一化评分平均提升 8–15分归一化率约为 35–40%这些收益在多轮中不会累积代理在重写全报告时会回归多达 24% 的先前已满足标准。即使有精准引导我们所评估的DRA架构中可靠的多轮改善仍不可达。1. 引言深度研究代理DRAs通过创建研究计划、搜索网络和整合来源来解决复杂开放问题Google DeepMind, 2024; OpenAI, 2025; Perplexity AI, 2025。然而大多数基准仅评估单次输出代理接收查询、生成初稿并由LLM作为裁判依据规约进行评判Du et al., 2025; Li et al., 2026; Zhong et al., 2026。但在实践中用户通常不会将初稿视为最终版本而是通过反馈迭代修订。因此多轮评估对于准确评估这些系统的能力至关重要。自然延伸单次评估至多轮的方式是在生成的报告上提供反馈。最简单的方法是自反射即代理在无任何外部诊断信号的情况下审阅并改进自身输出。然而Huang et al. (2023) 和 Tyen et al. (2024) 表明LLMs往往无法可靠识别自身错误自校正后性能有时反而下降。我们提出的过程级反馈关注代理研究过程中的深层问题如使用了不适当的来源、范围界定过窄或完全忽略了相关的子主题。为此我们设计了**研究差距推理RGI**方法通过分析满足和未满足标准的模式来推断研究过程差距并提供研究策略指导。2. 相关工作深度研究基准DRACOZhong et al., 2026评估了跨10个领域的复杂研究任务使用专家设计的任务特定规约进行评判。DeepResearch Bench IILi et al., 2026和ResearchRubricsSharma et al., 2025进一步强化了基于规约的评估。大多数基准仅评估单次输出而非迭代修订。交互式与多轮深度研究Chen et al. (2026) 评估了在规约级反馈下的多轮修订。我们的方法与该方法互补我们研究代理在收到关于研究策略差距的过程级指导时如何调整其研究策略。3. 实验框架3.1 任务、数据集与代理数据集: DRACO基准包含四个维度维度简称说明事实准确性 (Factual Accuracy)FA报告包含正确、可验证的事实分析广度与深度 (Breadth and Depth)BD相关维度的覆盖范围和分析彻底性展示质量 (Presentation Quality)PQ结构、格式与组织引用质量 (Citation Quality)CQ主张是否由适当来源支撑每个标准有二元判定MET/UNMET和带符号权重正向标准指定期望内容负向标准指定需避免的模式。代理: 使用 LangChain Open Deep Research (LC-ODR) 框架该框架将研究任务分解为四个阶段规划Planner、监督Supervisor、研究Researcher和报告生成Reporter。3.2 过程级反馈生成RGIRGI方法通过分析FA、BD和CQ规约轴上的满足/未满足模式来推断研究过程差距并生成关于研究主题、证据类型和分析重点的反馈。生成步骤包括信号选择包含FA和BD的通过和失败标准作为对比信号以及CQ诊断信号排除PQ。反馈生成将诊断结果组织为2-3个研究主题指明需要深入调查的领域及应优先的证据类型。4. 实验结果4.1 实验设置评估了三个模型配置GPT-4.1-mini、GPT-4.1和DeepSeek-V4-Flash均使用LC-ODR框架。每个模型首先生成初始报告然后进行两次修订。4.2 指标指标说明归一化评分Normalized Score规约标准的加权聚合得分通过率Pass Rate未加权满足标准的比例归一化率Incorporation Rate修订前未满足、修订后满足标准的频率回归率Regression Rate修订前满足、修订后未满足标准的频率4.3 主要结果总体轨迹模型设置归一化评分通过率归一化率回归率GPT-4.1-miniTurn 137.7645.89––SR Turn 240.18 (2.42)48.64 (2.75)15.4012.90RGI Turn 253.11 (15.35)59.91 (14.02)34.7814.52RGI Turn 354.45 (1.34)60.92 (1.01)27.4618.59GPT-4.1Turn 144.7751.55––SR Turn 244.86 (0.09)51.94 (0.39)15.5814.74RGI Turn 256.19 (11.42)62.22 (10.67)36.8816.87RGI Turn 351.22 (-4.97)58.86 (-3.36)27.1723.57DeepSeek-V4-FlashTurn 157.2063.94––SR Turn 256.66 (-0.54)63.84 (-0.10)26.1815.99RGI Turn 265.35 (8.15)71.10 (7.16)39.6113.41RGI Turn 369.36 (4.01)74.59 (3.49)31.528.96按轴分析模型轴Turn 1SRRGI-T2RGI-T3GPT-4.1-miniFA37.2339.9650.7452.28BD40.0142.4269.9765.07PQ46.3745.0850.7853.85CQ40.9444.3151.2158.884.4 分析过程级反馈主要提升覆盖率和事实基础RGI Turn 2在BD轴上的增益最大GPT-4.1-mini提升**29.96分**GPT-4.1提升**22.85分**DeepSeek-V4-Flash提升**16.28分**。FA也显著改善表明模型在给定充分过程级反馈时可以自行定位缺失事实。第三轮增益具有条件性而非单调叠加Turn 3的收益主要集中在Turn 2得分较低的任務中而Turn 2得分较高的任务中Turn 3往往表现为回归。这反映了全重写架构的固有局限已满足标准暴露在回归风险中。重写行为差异解释了回归模式模型引用保留率5-gram保留率回归率GPT-4.1-mini37.22%6.59%18.59%GPT-4.127.01%1.79%23.57%DeepSeek-V4-Flash53.96%26.68%8.96%DeepSeek-V4-Flash保留了更多先前内容因此回归率显著更低但计算开销更高约消耗3倍输入令牌4倍网络搜索调用。5. 案例研究案例1过程级反馈驱动恢复Task 021该任务要求自2022年以来的深度检测研究综合涵盖技术进展、伦理关注及监管框架。Turn 1报告归一化评分为50.0Turn 2提升至79.0 (29.0)。RGI反馈精准定位了三个过程级差距检测方法处于调查级别而非具体系统、监管覆盖为政策摘要而非一级立法、基准到部署讨论缺乏量化依据。Turn 2报告直接解决了这三个差距。案例2检索失败限制恢复Task 004该任务要求分析CME集团的现金生成效率需要季度数据。Turn 1报告得分为14.0Turn 2降至10.1 (-3.9)。当目标证据超出代理的检索范围时反馈无法实现恢复且全重写放大了回归风险。6. 结论与展望我们的研究揭示DRAs无法可靠自诊断研究差距过程级反馈能使代理在单轮内大幅改善报告质量这些改善在多轮中不会可靠累积因全重写架构的回归特性保留更多先前内容的模型回归更少但计算成本更高。依赖实现可靠多轮改善需要具有显式内容保留机制的架构。实验设置详情模型配置研究代理: GPT-4.1-mini-2025-04-14、GPT-4.1-2025-04-14、DeepSeek-V4-Flash反馈生成器: gpt-4.1-2025-04-14 (temperature0.7)规约裁判: GPT-5.2 (reasoning_effort“none”, temperature0)搜索: Tavily (max_results5)数据集采样从DRACO的100个任务中随机采样50个覆盖10个领域领域样本数领域样本数金融10购物/产品比较8学术6技术5通用知识5UX设计4法律3医学3针在草中3个性化助理3反馈生成提示模板System Prompt: You are an expert in research report quality analysis and feedback generation.STEP 1 — RESEARCH GAP ANALYSIS:Cluster related passes and failures by topic or entityUse passes as contrast to interpret failuresIdentify main research-process gapsCheck whether CQ signals explain downstream FA or BD shortcomingsSTEP 2 — FEEDBACK MESSAGE:Structure around 2 or 3 research themesSpecify where to deepen investigationNot to reproduce evaluator explanations verbatimNOT list individual criteria or address failures point by point关键资源链接论文: Multi-Turn Evaluation of Deep Research Agents Under Process-Level Feedback代码仓库: Multi Turn Evaluation Of DRAsDRACO基准: [2602.11685] DRACO: a Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and ObjectivityLC-ODR: Open Deep Research
多轮评估中深度研究代理的过程级反馈
发布时间:2026/6/11 9:34:10
多轮评估中深度研究代理的过程级反馈作者: Rishabh Sabharwal, Hongru Wang, Amos Storkey, Jeff Z. Pan 来源: arXiv (论文ID: 2606.09748) | 领域: 机器学习ICML 代码与数据: [https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs](https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs%5D(https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs) “https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs%5D(https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs)”)摘要现有深度研究代理Deep Research Agents, DRAs的基准测试仅评估单次输出忽略了关键问题DRAs能否在反馈指导下改进其报告 为此我们进行了多轮评估研究两种反馈设置下的代理行为自反射Self-Reflection代理在不接收外部诊断信号的情况下自行修订报告。过程级反馈Process-Level Feedback代理接收针对其研究策略中缺失的反馈指导。为实现过程级反馈我们设计了**研究差距推理Research Gap Inference, RGI**方法通过分析满足和未满足的规约标准模式来推断研究过程中的差距。我们的分析揭示了三个关键发现在自反射设置下代理满足和回归规约标准的行为几乎持平净改善微乎其微单次过程级反馈带来了显著收益归一化评分平均提升 8–15分归一化率约为 35–40%这些收益在多轮中不会累积代理在重写全报告时会回归多达 24% 的先前已满足标准。即使有精准引导我们所评估的DRA架构中可靠的多轮改善仍不可达。1. 引言深度研究代理DRAs通过创建研究计划、搜索网络和整合来源来解决复杂开放问题Google DeepMind, 2024; OpenAI, 2025; Perplexity AI, 2025。然而大多数基准仅评估单次输出代理接收查询、生成初稿并由LLM作为裁判依据规约进行评判Du et al., 2025; Li et al., 2026; Zhong et al., 2026。但在实践中用户通常不会将初稿视为最终版本而是通过反馈迭代修订。因此多轮评估对于准确评估这些系统的能力至关重要。自然延伸单次评估至多轮的方式是在生成的报告上提供反馈。最简单的方法是自反射即代理在无任何外部诊断信号的情况下审阅并改进自身输出。然而Huang et al. (2023) 和 Tyen et al. (2024) 表明LLMs往往无法可靠识别自身错误自校正后性能有时反而下降。我们提出的过程级反馈关注代理研究过程中的深层问题如使用了不适当的来源、范围界定过窄或完全忽略了相关的子主题。为此我们设计了**研究差距推理RGI**方法通过分析满足和未满足标准的模式来推断研究过程差距并提供研究策略指导。2. 相关工作深度研究基准DRACOZhong et al., 2026评估了跨10个领域的复杂研究任务使用专家设计的任务特定规约进行评判。DeepResearch Bench IILi et al., 2026和ResearchRubricsSharma et al., 2025进一步强化了基于规约的评估。大多数基准仅评估单次输出而非迭代修订。交互式与多轮深度研究Chen et al. (2026) 评估了在规约级反馈下的多轮修订。我们的方法与该方法互补我们研究代理在收到关于研究策略差距的过程级指导时如何调整其研究策略。3. 实验框架3.1 任务、数据集与代理数据集: DRACO基准包含四个维度维度简称说明事实准确性 (Factual Accuracy)FA报告包含正确、可验证的事实分析广度与深度 (Breadth and Depth)BD相关维度的覆盖范围和分析彻底性展示质量 (Presentation Quality)PQ结构、格式与组织引用质量 (Citation Quality)CQ主张是否由适当来源支撑每个标准有二元判定MET/UNMET和带符号权重正向标准指定期望内容负向标准指定需避免的模式。代理: 使用 LangChain Open Deep Research (LC-ODR) 框架该框架将研究任务分解为四个阶段规划Planner、监督Supervisor、研究Researcher和报告生成Reporter。3.2 过程级反馈生成RGIRGI方法通过分析FA、BD和CQ规约轴上的满足/未满足模式来推断研究过程差距并生成关于研究主题、证据类型和分析重点的反馈。生成步骤包括信号选择包含FA和BD的通过和失败标准作为对比信号以及CQ诊断信号排除PQ。反馈生成将诊断结果组织为2-3个研究主题指明需要深入调查的领域及应优先的证据类型。4. 实验结果4.1 实验设置评估了三个模型配置GPT-4.1-mini、GPT-4.1和DeepSeek-V4-Flash均使用LC-ODR框架。每个模型首先生成初始报告然后进行两次修订。4.2 指标指标说明归一化评分Normalized Score规约标准的加权聚合得分通过率Pass Rate未加权满足标准的比例归一化率Incorporation Rate修订前未满足、修订后满足标准的频率回归率Regression Rate修订前满足、修订后未满足标准的频率4.3 主要结果总体轨迹模型设置归一化评分通过率归一化率回归率GPT-4.1-miniTurn 137.7645.89––SR Turn 240.18 (2.42)48.64 (2.75)15.4012.90RGI Turn 253.11 (15.35)59.91 (14.02)34.7814.52RGI Turn 354.45 (1.34)60.92 (1.01)27.4618.59GPT-4.1Turn 144.7751.55––SR Turn 244.86 (0.09)51.94 (0.39)15.5814.74RGI Turn 256.19 (11.42)62.22 (10.67)36.8816.87RGI Turn 351.22 (-4.97)58.86 (-3.36)27.1723.57DeepSeek-V4-FlashTurn 157.2063.94––SR Turn 256.66 (-0.54)63.84 (-0.10)26.1815.99RGI Turn 265.35 (8.15)71.10 (7.16)39.6113.41RGI Turn 369.36 (4.01)74.59 (3.49)31.528.96按轴分析模型轴Turn 1SRRGI-T2RGI-T3GPT-4.1-miniFA37.2339.9650.7452.28BD40.0142.4269.9765.07PQ46.3745.0850.7853.85CQ40.9444.3151.2158.884.4 分析过程级反馈主要提升覆盖率和事实基础RGI Turn 2在BD轴上的增益最大GPT-4.1-mini提升**29.96分**GPT-4.1提升**22.85分**DeepSeek-V4-Flash提升**16.28分**。FA也显著改善表明模型在给定充分过程级反馈时可以自行定位缺失事实。第三轮增益具有条件性而非单调叠加Turn 3的收益主要集中在Turn 2得分较低的任務中而Turn 2得分较高的任务中Turn 3往往表现为回归。这反映了全重写架构的固有局限已满足标准暴露在回归风险中。重写行为差异解释了回归模式模型引用保留率5-gram保留率回归率GPT-4.1-mini37.22%6.59%18.59%GPT-4.127.01%1.79%23.57%DeepSeek-V4-Flash53.96%26.68%8.96%DeepSeek-V4-Flash保留了更多先前内容因此回归率显著更低但计算开销更高约消耗3倍输入令牌4倍网络搜索调用。5. 案例研究案例1过程级反馈驱动恢复Task 021该任务要求自2022年以来的深度检测研究综合涵盖技术进展、伦理关注及监管框架。Turn 1报告归一化评分为50.0Turn 2提升至79.0 (29.0)。RGI反馈精准定位了三个过程级差距检测方法处于调查级别而非具体系统、监管覆盖为政策摘要而非一级立法、基准到部署讨论缺乏量化依据。Turn 2报告直接解决了这三个差距。案例2检索失败限制恢复Task 004该任务要求分析CME集团的现金生成效率需要季度数据。Turn 1报告得分为14.0Turn 2降至10.1 (-3.9)。当目标证据超出代理的检索范围时反馈无法实现恢复且全重写放大了回归风险。6. 结论与展望我们的研究揭示DRAs无法可靠自诊断研究差距过程级反馈能使代理在单轮内大幅改善报告质量这些改善在多轮中不会可靠累积因全重写架构的回归特性保留更多先前内容的模型回归更少但计算成本更高。依赖实现可靠多轮改善需要具有显式内容保留机制的架构。实验设置详情模型配置研究代理: GPT-4.1-mini-2025-04-14、GPT-4.1-2025-04-14、DeepSeek-V4-Flash反馈生成器: gpt-4.1-2025-04-14 (temperature0.7)规约裁判: GPT-5.2 (reasoning_effort“none”, temperature0)搜索: Tavily (max_results5)数据集采样从DRACO的100个任务中随机采样50个覆盖10个领域领域样本数领域样本数金融10购物/产品比较8学术6技术5通用知识5UX设计4法律3医学3针在草中3个性化助理3反馈生成提示模板System Prompt: You are an expert in research report quality analysis and feedback generation.STEP 1 — RESEARCH GAP ANALYSIS:Cluster related passes and failures by topic or entityUse passes as contrast to interpret failuresIdentify main research-process gapsCheck whether CQ signals explain downstream FA or BD shortcomingsSTEP 2 — FEEDBACK MESSAGE:Structure around 2 or 3 research themesSpecify where to deepen investigationNot to reproduce evaluator explanations verbatimNOT list individual criteria or address failures point by point关键资源链接论文: Multi-Turn Evaluation of Deep Research Agents Under Process-Level Feedback代码仓库: Multi Turn Evaluation Of DRAsDRACO基准: [2602.11685] DRACO: a Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and ObjectivityLC-ODR: Open Deep Research