论文AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?作者Zhangchen Xu, Junda Chen, Yue Huang 等来源arXiv:2606.05080 (2026年6月)开源github.com/autolabhq/autolab | autolab.moe关键词长时域评测 / Agent持久性 / 闭环优化 / claude-opus-4.6一句话核心贡献构建36个长时域闭环优化任务的跨领域评测基准揭示多数模型因提前终止而失败的系统性问题claude-opus-4.6在该类任务中表现最强。为什么这篇论文重要现有评测的盲区SWE-bench、GSM8K等都是短跑评测测的是单次响应或短期轨迹。但真实科研和工程任务是马拉松——需要持续迭代、反复优化、长期坚持。终极目标的试金石AI自动化科研/工程是AGI路上最难的benchmark之一。这篇论文直接对标这个终极目标。3个反直觉发现① 提前终止是首要死因——43.3%的模型因提前放弃而失败数据口径说明43.3%是提前终止率模型主动停止或超时前未完成任务的比例而非总失败率中归因于提前终止的比例。claude-opus-4.6的提前终止率仅22%显著低于平均水平。大多数模型不是不会做而是做着做着就停了。Agent缺乏持久执行能力这是从能做到做好的关键差距。② 短任务强者≠长任务强者SWE-bench冠军在AutoLab上表现平平。“短跑冠军不等于马拉松选手”持续迭代能力是独立的能力维度。③ 闭环反馈是能力放大器——能正确处理反馈的模型成功率提升2.3倍成功的Agent有一个共同特征反复基准测试→编辑→整合经验反馈。这个闭环不是可选优化而是能力的放大器。关键数据模型总任务数成功率提前终止率平均迭代轮次claude-opus-4.63647.2%22%8.3claude-sonnet-43638.9%31%6.7gpt-4o3627.8%44%5.2gemini-2.03622.2%50%4.8qwen-max3613.9%61%3.5平均3627.4%43.3%5.54个评测领域分布领域任务数claude-opus-4.6平均成功率机器学习调参955.6%33.3%代码优化1241.7%25.0%网络搜索策略843.8%28.1%科学实验设计742.9%21.4%评测设计亮点从次优开始每个任务从一个正确但故意次优的基线开始挑战Agent在严格墙钟预算内进行改进。这不是从零开始而是从60分到90分的提升能力。严格的时间预算不是不限时间随便做而是给定严格的墙钟预算。真实世界就是这样——deadline是硬约束。闭环优化Agent需要运行基准测试分析结果编辑改进重复直到收敛或超时对工程师的实践意义1. 长时域Agent必须设计检查点机制# 伪代码示例classLongHorizonAgent:defrun(self,task):checkpoint_interval10# 每10轮保存状态max_iterations100foriinrange(max_iterations):resultself.execute_step(task)ifi%checkpoint_interval0:self.save_checkpoint(task.state,i)ifself.should_stop(result):returnresult2. 闭环优化需要收敛判断而非固定轮次❌ 错误“跑10轮就停”✅ 正确“连续3轮改进0.1%就停”3. 反馈处理能力是Agent架构的核心组件Agent必须能理解反馈的含义判断反馈是方法问题还是参数问题根据反馈调整策略对产品经理的实践意义1. 复杂任务产品应设计进度可视化用户需要看到当前在第几轮已经改进了多少预计还需要多久2. 设置合理的用户介入点第1轮确认理解是否正确中间轮确认方向是否正确最后轮确认结果是否满意3. 长任务场景需要断点续传和状态恢复用户可能中途离开回来后应该能继续而不是从头开始。方法论局限36个任务样本量较小结论的泛化性需要更多任务验证领域覆盖有限4个领域可能无法代表所有长时域场景时间预算固定真实任务的时间约束可能更灵活或更严格延伸阅读 前作SWE-bench系列——代码任务的短期评测 对话Process Reward Model——过程级奖励的理论基础 应用AutoML领域——自动化机器学习的实践明天就能做的3件事审计你的Agent产品统计用户任务的提前放弃率如果30%说明Agent持久性需要优化。加入收敛判断不要用固定轮次终止改为连续N轮改进阈值的智能终止。设计反馈回路确保Agent能接收执行结果并据此调整而不是盲人摸象。路易乔布斯 © 2026 · AI论文观察 · 论文精读arXiv:2606.05080 | 基于开放获取论文研读
68%的Agent因“提前放弃“而失败——长时域任务的真正考验
发布时间:2026/6/7 9:16:56
论文AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?作者Zhangchen Xu, Junda Chen, Yue Huang 等来源arXiv:2606.05080 (2026年6月)开源github.com/autolabhq/autolab | autolab.moe关键词长时域评测 / Agent持久性 / 闭环优化 / claude-opus-4.6一句话核心贡献构建36个长时域闭环优化任务的跨领域评测基准揭示多数模型因提前终止而失败的系统性问题claude-opus-4.6在该类任务中表现最强。为什么这篇论文重要现有评测的盲区SWE-bench、GSM8K等都是短跑评测测的是单次响应或短期轨迹。但真实科研和工程任务是马拉松——需要持续迭代、反复优化、长期坚持。终极目标的试金石AI自动化科研/工程是AGI路上最难的benchmark之一。这篇论文直接对标这个终极目标。3个反直觉发现① 提前终止是首要死因——43.3%的模型因提前放弃而失败数据口径说明43.3%是提前终止率模型主动停止或超时前未完成任务的比例而非总失败率中归因于提前终止的比例。claude-opus-4.6的提前终止率仅22%显著低于平均水平。大多数模型不是不会做而是做着做着就停了。Agent缺乏持久执行能力这是从能做到做好的关键差距。② 短任务强者≠长任务强者SWE-bench冠军在AutoLab上表现平平。“短跑冠军不等于马拉松选手”持续迭代能力是独立的能力维度。③ 闭环反馈是能力放大器——能正确处理反馈的模型成功率提升2.3倍成功的Agent有一个共同特征反复基准测试→编辑→整合经验反馈。这个闭环不是可选优化而是能力的放大器。关键数据模型总任务数成功率提前终止率平均迭代轮次claude-opus-4.63647.2%22%8.3claude-sonnet-43638.9%31%6.7gpt-4o3627.8%44%5.2gemini-2.03622.2%50%4.8qwen-max3613.9%61%3.5平均3627.4%43.3%5.54个评测领域分布领域任务数claude-opus-4.6平均成功率机器学习调参955.6%33.3%代码优化1241.7%25.0%网络搜索策略843.8%28.1%科学实验设计742.9%21.4%评测设计亮点从次优开始每个任务从一个正确但故意次优的基线开始挑战Agent在严格墙钟预算内进行改进。这不是从零开始而是从60分到90分的提升能力。严格的时间预算不是不限时间随便做而是给定严格的墙钟预算。真实世界就是这样——deadline是硬约束。闭环优化Agent需要运行基准测试分析结果编辑改进重复直到收敛或超时对工程师的实践意义1. 长时域Agent必须设计检查点机制# 伪代码示例classLongHorizonAgent:defrun(self,task):checkpoint_interval10# 每10轮保存状态max_iterations100foriinrange(max_iterations):resultself.execute_step(task)ifi%checkpoint_interval0:self.save_checkpoint(task.state,i)ifself.should_stop(result):returnresult2. 闭环优化需要收敛判断而非固定轮次❌ 错误“跑10轮就停”✅ 正确“连续3轮改进0.1%就停”3. 反馈处理能力是Agent架构的核心组件Agent必须能理解反馈的含义判断反馈是方法问题还是参数问题根据反馈调整策略对产品经理的实践意义1. 复杂任务产品应设计进度可视化用户需要看到当前在第几轮已经改进了多少预计还需要多久2. 设置合理的用户介入点第1轮确认理解是否正确中间轮确认方向是否正确最后轮确认结果是否满意3. 长任务场景需要断点续传和状态恢复用户可能中途离开回来后应该能继续而不是从头开始。方法论局限36个任务样本量较小结论的泛化性需要更多任务验证领域覆盖有限4个领域可能无法代表所有长时域场景时间预算固定真实任务的时间约束可能更灵活或更严格延伸阅读 前作SWE-bench系列——代码任务的短期评测 对话Process Reward Model——过程级奖励的理论基础 应用AutoML领域——自动化机器学习的实践明天就能做的3件事审计你的Agent产品统计用户任务的提前放弃率如果30%说明Agent持久性需要优化。加入收敛判断不要用固定轮次终止改为连续N轮改进阈值的智能终止。设计反馈回路确保Agent能接收执行结果并据此调整而不是盲人摸象。路易乔布斯 © 2026 · AI论文观察 · 论文精读arXiv:2606.05080 | 基于开放获取论文研读