68%的Agent因“提前放弃“而失败——长时域任务的真正考验

发布时间：2026/6/7 9:16:56

论文AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?作者Zhangchen Xu, Junda Chen, Yue Huang 等来源arXiv:2606.05080 (2026年6月)开源github.com/autolabhq/autolab | autolab.moe关键词长时域评测 / Agent持久性 / 闭环优化 / claude-opus-4.6一句话核心贡献构建36个长时域闭环优化任务的跨领域评测基准揭示多数模型因提前终止而失败的系统性问题claude-opus-4.6在该类任务中表现最强。为什么这篇论文重要现有评测的盲区SWE-bench、GSM8K等都是短跑评测测的是单次响应或短期轨迹。但真实科研和工程任务是马拉松——需要持续迭代、反复优化、长期坚持。终极目标的试金石AI自动化科研/工程是AGI路上最难的benchmark之一。这篇论文直接对标这个终极目标。3个反直觉发现① 提前终止是首要死因——43.3%的模型因提前放弃而失败数据口径说明43.3%是提前终止率模型主动停止或超时前未完成任务的比例而非总失败率中归因于提前终止的比例。claude-opus-4.6的提前终止率仅22%显著低于平均水平。大多数模型不是不会做而是做着做着就停了。Agent缺乏持久执行能力这是从能做到做好的关键差距。② 短任务强者≠长任务强者SWE-bench冠军在AutoLab上表现平平。“短跑冠军不等于马拉松选手”持续迭代能力是独立的能力维度。③ 闭环反馈是能力放大器——能正确处理反馈的模型成功率提升2.3倍成功的Agent有一个共同特征反复基准测试→编辑→整合经验反馈。这个闭环不是可选优化而是能力的放大器。关键数据模型总任务数成功率提前终止率平均迭代轮次claude-opus-4.63647.2%22%8.3claude-sonnet-43638.9%31%6.7gpt-4o3627.8%44%5.2gemini-2.03622.2%50%4.8qwen-max3613.9%61%3.5平均3627.4%43.3%5.54个评测领域分布领域任务数claude-opus-4.6平均成功率机器学习调参955.6%33.3%代码优化1241.7%25.0%网络搜索策略843.8%28.1%科学实验设计742.9%21.4%评测设计亮点从次优开始每个任务从一个正确但故意次优的基线开始挑战Agent在严格墙钟预算内进行改进。这不是从零开始而是从60分到90分的提升能力。严格的时间预算不是不限时间随便做而是给定严格的墙钟预算。真实世界就是这样——deadline是硬约束。闭环优化Agent需要运行基准测试分析结果编辑改进重复直到收敛或超时对工程师的实践意义1. 长时域Agent必须设计检查点机制# 伪代码示例classLongHorizonAgent:defrun(self,task):checkpoint_interval10# 每10轮保存状态max_iterations100foriinrange(max_iterations):resultself.execute_step(task)ifi%checkpoint_interval0:self.save_checkpoint(task.state,i)ifself.should_stop(result):returnresult2. 闭环优化需要收敛判断而非固定轮次❌ 错误“跑10轮就停”✅ 正确“连续3轮改进0.1%就停”3. 反馈处理能力是Agent架构的核心组件Agent必须能理解反馈的含义判断反馈是方法问题还是参数问题根据反馈调整策略对产品经理的实践意义1. 复杂任务产品应设计进度可视化用户需要看到当前在第几轮已经改进了多少预计还需要多久2. 设置合理的用户介入点第1轮确认理解是否正确中间轮确认方向是否正确最后轮确认结果是否满意3. 长任务场景需要断点续传和状态恢复用户可能中途离开回来后应该能继续而不是从头开始。方法论局限36个任务样本量较小结论的泛化性需要更多任务验证领域覆盖有限4个领域可能无法代表所有长时域场景时间预算固定真实任务的时间约束可能更灵活或更严格延伸阅读前作SWE-bench系列——代码任务的短期评测对话Process Reward Model——过程级奖励的理论基础应用AutoML领域——自动化机器学习的实践明天就能做的3件事审计你的Agent产品统计用户任务的提前放弃率如果30%说明Agent持久性需要优化。加入收敛判断不要用固定轮次终止改为连续N轮改进阈值的智能终止。设计反馈回路确保Agent能接收执行结果并据此调整而不是盲人摸象。路易乔布斯 © 2026 · AI论文观察 · 论文精读arXiv:2606.05080 | 基于开放获取论文研读

QGIS切片+Cesium加载：解决瓦片错位、空白或跨域问题的实战排查指南

QGIS切片与Cesium集成：从问题诊断到完美加载的完整实践地图瓦片技术在现代WebGIS开发中扮演着关键角色，而QGIS与Cesium的结合为开发者提供了从数据处理到三维展示的完整解决方案。但在实际项目中，许多开发者都会遇到瓦片显示异常的问题——可…

2026/6/7 9:16:56 阅读更多

本地视频多场景车流自动计数工具：Python+OpenCV实现，含6段实测视频与可调参数脚本

本文还有配套的精品资源，点击获取简介：直接运行就能统计车辆通行数量的轻量级视觉方案，用Python调用OpenCV完成运动目标检测与区域计数。支持读取本地MP4视频（含早晚高峰、单双车道、俯拍/侧拍等6段实测片段）&…

2026/6/7 9:16:36 阅读更多

LAV Filters完整配置教程：5分钟打造Windows最强视频播放体验

LAV Filters完整配置教程：5分钟打造Windows最强视频播放体验【免费下载链接】LAVFilters LAV Filters - Open-Source DirectShow Media Splitter and Decoders 项目地址: https://gitcode.com/gh_mirrors/la/LAVFilters 还在为Windows视频播放卡顿、格式不兼…

2026/6/7 9:16:36 阅读更多

抖音无水印视频下载全攻略：douyin-downloader轻松搞定

抖音无水印视频下载全攻略：douyin-downloader轻松搞定【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppo…

2026/6/7 13:14:32 阅读更多

Intel TBB 2019 Update 8（2019年6月5日发布）Windows全功能开发包

本文还有配套的精品资源，点击获取简介：包含完整头文件、预编译64位动态/静态库（intel64）、CMake支持脚本（FindTBB.cmake）、Parallel STL（pstl）子模块、多套可运行示例&#xff0…

2026/6/7 13:14:11 阅读更多

Cloud Code / Claude Code 装了近百个 Skill 后，我只留下这 3 个：Superpowers、Planning with Files、Rough Lop 实战经验

🔥 个人主页： 杨利杰YJlio ❄️ 个人专栏： 《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》《Python》《Kali Linux》《那些年未解决的Windows疑难杂症》 🌟 让…

2026/6/7 13:12:28 阅读更多

AI时代的轻创业：一个人也能打造自己的互联网事业

在过去，创业往往意味着租办公室、组建团队、投入大量资金。然而随着互联网技术和人工智能的发展，创业的门槛正在被不断降低。越来越多的人开始通过个人能力和数字化工具，在较低成本的情况下创造属于自己的事业。对于普通人来说，轻…

2026/6/7 13:11:47 阅读更多

星露谷物语模组开发终极指南：用SMAPI打造你的专属农场

星露谷物语模组开发终极指南：用SMAPI打造你的专属农场【免费下载链接】SMAPI The modding API for Stardew Valley. 项目地址: https://gitcode.com/gh_mirrors/smap/SMAPI 你是否曾经想过为星露谷物语添加新功能、自定义角色或者改变游戏玩法？S…

2026/6/7 13:11:47 阅读更多

沪深A股LSTM价格预测实战资源包：含数据、训练代码、预训练模型与可视化结果

本文还有配套的精品资源，点击获取简介：直接跑通股票价格预测的完整流程，内置上证指数（000001）和中国平安（000001.SZ）日线行情CSV数据，开箱即可运行。提供从数据获取（…

2026/6/7 13:10:46 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/7 0:02:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/7 0:03:38 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

2026/6/7 0:02:57 阅读更多

索引堆及其优化

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

2026/6/7 0:03:38 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/7 9:41:13 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/7 9:41:15 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/7 9:41:13 阅读更多

相关文章

QGIS切片+Cesium加载：解决瓦片错位、空白或跨域问题的实战排查指南

本地视频多场景车流自动计数工具：Python+OpenCV实现，含6段实测视频与可调参数脚本

LAV Filters完整配置教程：5分钟打造Windows最强视频播放体验

抖音无水印视频下载全攻略：douyin-downloader轻松搞定

Intel TBB 2019 Update 8（2019年6月5日发布）Windows全功能开发包

Cloud Code / Claude Code 装了近百个 Skill 后，我只留下这 3 个：Superpowers、Planning with Files、Rough Lop 实战经验

AI时代的轻创业：一个人也能打造自己的互联网事业

星露谷物语模组开发终极指南：用SMAPI打造你的专属农场

沪深A股LSTM价格预测实战资源包：含数据、训练代码、预训练模型与可视化结果

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因