多轮评估中深度研究代理的过程级反馈

发布时间：2026/6/11 9:34:10

多轮评估中深度研究代理的过程级反馈作者: Rishabh Sabharwal, Hongru Wang, Amos Storkey, Jeff Z. Pan 来源: arXiv (论文ID: 2606.09748) | 领域: 机器学习ICML 代码与数据: [https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs](https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs%5D(https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs) “https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs%5D(https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs)”)摘要现有深度研究代理Deep Research Agents, DRAs的基准测试仅评估单次输出忽略了关键问题DRAs能否在反馈指导下改进其报告为此我们进行了多轮评估研究两种反馈设置下的代理行为自反射Self-Reflection代理在不接收外部诊断信号的情况下自行修订报告。过程级反馈Process-Level Feedback代理接收针对其研究策略中缺失的反馈指导。为实现过程级反馈我们设计了**研究差距推理Research Gap Inference, RGI**方法通过分析满足和未满足的规约标准模式来推断研究过程中的差距。我们的分析揭示了三个关键发现在自反射设置下代理满足和回归规约标准的行为几乎持平净改善微乎其微单次过程级反馈带来了显著收益归一化评分平均提升 8–15分归一化率约为 35–40%这些收益在多轮中不会累积代理在重写全报告时会回归多达 24% 的先前已满足标准。即使有精准引导我们所评估的DRA架构中可靠的多轮改善仍不可达。1. 引言深度研究代理DRAs通过创建研究计划、搜索网络和整合来源来解决复杂开放问题Google DeepMind, 2024; OpenAI, 2025; Perplexity AI, 2025。然而大多数基准仅评估单次输出代理接收查询、生成初稿并由LLM作为裁判依据规约进行评判Du et al., 2025; Li et al., 2026; Zhong et al., 2026。但在实践中用户通常不会将初稿视为最终版本而是通过反馈迭代修订。因此多轮评估对于准确评估这些系统的能力至关重要。自然延伸单次评估至多轮的方式是在生成的报告上提供反馈。最简单的方法是自反射即代理在无任何外部诊断信号的情况下审阅并改进自身输出。然而Huang et al. (2023) 和 Tyen et al. (2024) 表明LLMs往往无法可靠识别自身错误自校正后性能有时反而下降。我们提出的过程级反馈关注代理研究过程中的深层问题如使用了不适当的来源、范围界定过窄或完全忽略了相关的子主题。为此我们设计了**研究差距推理RGI**方法通过分析满足和未满足标准的模式来推断研究过程差距并提供研究策略指导。2. 相关工作深度研究基准DRACOZhong et al., 2026评估了跨10个领域的复杂研究任务使用专家设计的任务特定规约进行评判。DeepResearch Bench IILi et al., 2026和ResearchRubricsSharma et al., 2025进一步强化了基于规约的评估。大多数基准仅评估单次输出而非迭代修订。交互式与多轮深度研究Chen et al. (2026) 评估了在规约级反馈下的多轮修订。我们的方法与该方法互补我们研究代理在收到关于研究策略差距的过程级指导时如何调整其研究策略。3. 实验框架3.1 任务、数据集与代理数据集: DRACO基准包含四个维度维度简称说明事实准确性 (Factual Accuracy)FA报告包含正确、可验证的事实分析广度与深度 (Breadth and Depth)BD相关维度的覆盖范围和分析彻底性展示质量 (Presentation Quality)PQ结构、格式与组织引用质量 (Citation Quality)CQ主张是否由适当来源支撑每个标准有二元判定MET/UNMET和带符号权重正向标准指定期望内容负向标准指定需避免的模式。代理: 使用 LangChain Open Deep Research (LC-ODR) 框架该框架将研究任务分解为四个阶段规划Planner、监督Supervisor、研究Researcher和报告生成Reporter。3.2 过程级反馈生成RGIRGI方法通过分析FA、BD和CQ规约轴上的满足/未满足模式来推断研究过程差距并生成关于研究主题、证据类型和分析重点的反馈。生成步骤包括信号选择包含FA和BD的通过和失败标准作为对比信号以及CQ诊断信号排除PQ。反馈生成将诊断结果组织为2-3个研究主题指明需要深入调查的领域及应优先的证据类型。4. 实验结果4.1 实验设置评估了三个模型配置GPT-4.1-mini、GPT-4.1和DeepSeek-V4-Flash均使用LC-ODR框架。每个模型首先生成初始报告然后进行两次修订。4.2 指标指标说明归一化评分Normalized Score规约标准的加权聚合得分通过率Pass Rate未加权满足标准的比例归一化率Incorporation Rate修订前未满足、修订后满足标准的频率回归率Regression Rate修订前满足、修订后未满足标准的频率4.3 主要结果总体轨迹模型设置归一化评分通过率归一化率回归率GPT-4.1-miniTurn 137.7645.89––SR Turn 240.18 (2.42)48.64 (2.75)15.4012.90RGI Turn 253.11 (15.35)59.91 (14.02)34.7814.52RGI Turn 354.45 (1.34)60.92 (1.01)27.4618.59GPT-4.1Turn 144.7751.55––SR Turn 244.86 (0.09)51.94 (0.39)15.5814.74RGI Turn 256.19 (11.42)62.22 (10.67)36.8816.87RGI Turn 351.22 (-4.97)58.86 (-3.36)27.1723.57DeepSeek-V4-FlashTurn 157.2063.94––SR Turn 256.66 (-0.54)63.84 (-0.10)26.1815.99RGI Turn 265.35 (8.15)71.10 (7.16)39.6113.41RGI Turn 369.36 (4.01)74.59 (3.49)31.528.96按轴分析模型轴Turn 1SRRGI-T2RGI-T3GPT-4.1-miniFA37.2339.9650.7452.28BD40.0142.4269.9765.07PQ46.3745.0850.7853.85CQ40.9444.3151.2158.884.4 分析过程级反馈主要提升覆盖率和事实基础RGI Turn 2在BD轴上的增益最大GPT-4.1-mini提升**29.96分**GPT-4.1提升**22.85分**DeepSeek-V4-Flash提升**16.28分**。FA也显著改善表明模型在给定充分过程级反馈时可以自行定位缺失事实。第三轮增益具有条件性而非单调叠加Turn 3的收益主要集中在Turn 2得分较低的任務中而Turn 2得分较高的任务中Turn 3往往表现为回归。这反映了全重写架构的固有局限已满足标准暴露在回归风险中。重写行为差异解释了回归模式模型引用保留率5-gram保留率回归率GPT-4.1-mini37.22%6.59%18.59%GPT-4.127.01%1.79%23.57%DeepSeek-V4-Flash53.96%26.68%8.96%DeepSeek-V4-Flash保留了更多先前内容因此回归率显著更低但计算开销更高约消耗3倍输入令牌4倍网络搜索调用。5. 案例研究案例1过程级反馈驱动恢复Task 021该任务要求自2022年以来的深度检测研究综合涵盖技术进展、伦理关注及监管框架。Turn 1报告归一化评分为50.0Turn 2提升至79.0 (29.0)。RGI反馈精准定位了三个过程级差距检测方法处于调查级别而非具体系统、监管覆盖为政策摘要而非一级立法、基准到部署讨论缺乏量化依据。Turn 2报告直接解决了这三个差距。案例2检索失败限制恢复Task 004该任务要求分析CME集团的现金生成效率需要季度数据。Turn 1报告得分为14.0Turn 2降至10.1 (-3.9)。当目标证据超出代理的检索范围时反馈无法实现恢复且全重写放大了回归风险。6. 结论与展望我们的研究揭示DRAs无法可靠自诊断研究差距过程级反馈能使代理在单轮内大幅改善报告质量这些改善在多轮中不会可靠累积因全重写架构的回归特性保留更多先前内容的模型回归更少但计算成本更高。依赖实现可靠多轮改善需要具有显式内容保留机制的架构。实验设置详情模型配置研究代理: GPT-4.1-mini-2025-04-14、GPT-4.1-2025-04-14、DeepSeek-V4-Flash反馈生成器: gpt-4.1-2025-04-14 (temperature0.7)规约裁判: GPT-5.2 (reasoning_effort“none”, temperature0)搜索: Tavily (max_results5)数据集采样从DRACO的100个任务中随机采样50个覆盖10个领域领域样本数领域样本数金融10购物/产品比较8学术6技术5通用知识5UX设计4法律3医学3针在草中3个性化助理3反馈生成提示模板System Prompt: You are an expert in research report quality analysis and feedback generation.STEP 1 — RESEARCH GAP ANALYSIS:Cluster related passes and failures by topic or entityUse passes as contrast to interpret failuresIdentify main research-process gapsCheck whether CQ signals explain downstream FA or BD shortcomingsSTEP 2 — FEEDBACK MESSAGE:Structure around 2 or 3 research themesSpecify where to deepen investigationNot to reproduce evaluator explanations verbatimNOT list individual criteria or address failures point by point关键资源链接论文: Multi-Turn Evaluation of Deep Research Agents Under Process-Level Feedback代码仓库: Multi Turn Evaluation Of DRAsDRACO基准: [2602.11685] DRACO: a Cross-Domain Benchmark for Deep Research Accuracy, Completeness, and ObjectivityLC-ODR: Open Deep Research

MATLAB通信信号特征提取工具：七种瞬时域指标一键生成，适配QPSK/16QAM调制识别

本文还有配套的精品资源，点击获取简介：一套面向通信信号自动调制识别（AMC）的MATLAB特征工程工具集，专注从IQ数据中稳定提取七维瞬时域特征。包含零中心归一化瞬时幅度功率谱密度峰值、瞬时幅度绝对值标准差、非弱信…

2026/6/11 9:33:09 阅读更多

手机号码定位工具：3步实现电话号码到地理位置的智能转换

手机号码定位工具：3步实现电话号码到地理位置的智能转换【免费下载链接】location-to-phone-number This a project to search a location of a specified phone number, and locate the map to the phone number location. 项目地址: https://gitcode.com/gh_mi…

2026/6/11 9:31:07 阅读更多

HJ212-2017 TCP服务端调试工具：多设备接入、自动回ACK、可视化报文组装与完整通信日志

本文还有配套的精品资源，点击获取简介：直接运行HJ212TCPServer.exe就能启动符合HJ212-2017标准的TCP服务端，无需安装或配置，VS2012环境开箱即用。支持多个数采仪或在线监测设备同时连接，底层采用异步Socket多线程机…

2026/6/11 9:29:05 阅读更多

SAP STO交货单创建后库位丢失？手把手教你用BAPI_OUTB_DELIVERY_CHANGE修复（附ABAP代码）

SAP STO交货单库位丢失问题全解析：从诊断到修复的实战指南在SAP供应链执行模块中，库存转储订单(STO)交货单的创建与处理是日常高频操作。许多开发顾问都遇到过这样的场景：使用标准BAPIBAPI_OUTB_DELIVERY_CREATE_STO创建交货单时，…

2026/6/11 10:57:03 阅读更多

网页直接跑的360°产品图旋转预览组件（带示例页、图片序列和操作视频）

本文还有配套的精品资源，点击获取简介：拖拽或滑动就能看产品360度细节，不用3D建模、不依赖复杂引擎，只靠一组切好的角度图片（比如sprites.png）和轻量JS脚本就能实现。用threesixty.js驱动，支…

2026/6/11 10:55:42 阅读更多

这颗ESP32-S2-SOLO-2U-N16，凭什么成为工程师眼中的“万金油”？

做硬件的朋友都知道，选主控芯片有时候比选方案还让人头疼。性能强的往往发热大、功耗高；功耗低的算力又跟不上，外设接口还少得可怜。特别是在物联网和智能设备领域，大家都想找一颗 “既要跑得快，又要吃得少&#xff0c…

2026/6/11 10:55:42 阅读更多

避坑指南：鸿蒙 PC 部署 AtomCode Skills 压测工具 wrk

欢迎加入【开源鸿蒙PC社区】，一起共建鸿蒙化C/C三方库生态。欢迎在【PC社区】平台贡献你的项目。仓库: wg/wrk v4.2.0 — HTTP 基准测试工具适配平台: 鸿蒙PC 资源地址wrk 官方仓库https://github.com/wg/wrkLuaJIT 官方仓库https://github.com/LuaJIT/LuaJITLua…

2026/6/11 10:55:42 阅读更多

手机号找回QQ号：30秒快速查询的Python解决方案

手机号找回QQ号：30秒快速查询的Python解决方案【免费下载链接】phone2qq 项目地址: https://gitcode.com/gh_mirrors/ph/phone2qq 你是否曾经因为忘记QQ号而无法登录账号？当紧急需要联系好友或处理重要事务时，只记得手机号却想不起Q…

2026/6/11 10:54:41 阅读更多

用STM32和YH-LDR光敏模块做个智能小夜灯，5分钟搞定自动开关（附完整代码）

用STM32和光敏传感器打造智能夜灯：从硬件连接到代码实战深夜起床时刺眼的顶灯总是让人瞬间清醒？今天我们就用STM32开发板和YH-LDR光敏模块，打造一个能自动感知环境光线并调节亮度的智能小夜灯。这个项目不仅实用，还能让你深入理解…

2026/6/11 10:53:41 阅读更多

LLM 多轮对话状态管理：从无状态 API 到有状态会话

LLM 多轮对话状态管理：从无状态 API 到有状态会话一、大模型 API 的无状态困境：上下文窗口的有限性与会话连续性大模型的 Chat API 本质上是无状态的——每次请求都需要发送完整的对话历史。这种设计简化了服务端实现，但给后端架构带来了两个…

2026/6/11 1:00:57 阅读更多

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命一、JVM 冷启动的性能困境：云原生环境下的启动延迟 Java 应用在云原生环境中面临的核心挑战是冷启动延迟。一个典型的 Spring Boot 2 应用，启动时间约 3-8 秒，内存占…

2026/6/11 1:01:58 阅读更多

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践一、Go 错误处理的工程困境：哨兵值与信息丢失 Go 的错误处理采用显式返回值模式，if err ! nil 是每个 Go 开发者最熟悉的代码片段。然而，当项目规模增长后，简…

2026/6/11 1:01:58 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/11 0:58:15 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/11 0:58:13 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/11 0:58:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/11 9:57:14 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/11 9:57:16 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/11 9:57:14 阅读更多

相关文章

MATLAB通信信号特征提取工具：七种瞬时域指标一键生成，适配QPSK/16QAM调制识别

手机号码定位工具：3步实现电话号码到地理位置的智能转换

HJ212-2017 TCP服务端调试工具：多设备接入、自动回ACK、可视化报文组装与完整通信日志

SAP STO交货单创建后库位丢失？手把手教你用BAPI_OUTB_DELIVERY_CHANGE修复（附ABAP代码）

网页直接跑的360°产品图旋转预览组件（带示例页、图片序列和操作视频）

这颗ESP32-S2-SOLO-2U-N16，凭什么成为工程师眼中的“万金油”？

避坑指南：鸿蒙 PC 部署 AtomCode Skills 压测工具 wrk

手机号找回QQ号：30秒快速查询的Python解决方案

用STM32和YH-LDR光敏模块做个智能小夜灯，5分钟搞定自动开关（附完整代码）

LLM 多轮对话状态管理：从无状态 API 到有状态会话

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因