0%。那是机器人第一次尝试把针插进4毫米孔洞时的成绩。三小时之后这个数字跳到了99%。中间没有人类研究员碰过一根手指头。6月英伟达联合卡内基梅隆大学CMU和加州大学伯克利分校UC Berkeley发布了具身智能Autoresearch框架ENPIRE8个Coding Agent各自控制一台双臂机器人自己读论文、改算法、训练策略、部署实验、分析结果失败了换条路重来全程闭环。项目负责人之一的Jim Fan在社交平台上扔了一句话GEAR实验室的一部分现在已经在彻夜自我改进了我们只需要早上来读报告。这不是科幻桥段。论文里记录了Pin Insertion任务的完整轨迹——一台机器人要抓住一根针精准插进一个直径仅4毫米的孔。第一轮针歪了孔没找到。Agent自动调了算法第二轮第三轮第十轮。3个小时后100次尝试里99次成功。Jim Fan的推文下面有网友用一句话拆解了这种“自律”的代价高情商叫彻夜自我改进低情商就是没日没夜的烧token。这说法没夸张。ENPIRE的运转逻辑本质上是给AI研究员搭了一套24小时不休的物理实验台。框架分成四个模块EN环境模块负责自动复位和自动评分PI策略改进模块尝试行为克隆、强化学习甚至混搭方案R把新策略部署到真实机械臂上跑数据E则是8个Agent之间的进化机制——它们各自占一台机器人通过Git共享代码有效的方案被吸收失败的路线被淘汰。四个模块连起来就是一个“提想法-训练-真机测-自动打分-总结经验-再提新想法”的闭环。环境模块可能是最反常识的一环。在仿真里实验失败了一句env.reset()就能重来。但物理世界没有reset键。以GPU插拔任务为例一次实验结束后机器人必须先把GPU从主板上拔出来移到指定位置释放再退回去。整个过程涉及复杂的力控针脚一歪就废了。扎带穿孔任务更离谱——Agent得自己判断“扎带尾巴有没有穿过头”。为此它自己搞了一套视觉检测方案顶部和侧面两个摄像头同时盯着目标区域交叉验证。这些自动复位和自动评分的逻辑全是Agent在实验过程中自己写出来的。另一个容易被误读的点在于Agent输出的不是一段控制脚本而是一个可以直接部署到机器人上的Policy。这和此前Code as Policy一类的思路有根本区别。用控制脚本意味着每次任务变了人还得重写。用Policy意味着Agent自己在真实环境里筛选出了可行方案下次直接调用。GEAR实验室这步棋踩在了一个很微妙的时间点上。具身智能研究过去几年最大的瓶颈不是算法不够好而是人太慢。一个博士生调参一天只能跑十几个rollout要熬夜守着机器人复位、记录、分析。ENPIRE把这整个流程的“值守”职责从人类手里抠掉了。研究员确实不用再通宵盯着屏幕了但代价是得烧掉多少token才能喂出这3小时里99%的成功率论文没有公布具体数字。有从业者在社区里算了一笔账8台机器人同时跑每个Agent背后是大模型反复调用、视觉检测、策略搜索3小时消耗的算力成本可能抵得上一个小团队一周的实验预算。更大的变量在产业端。ENPIRE极度依赖英伟达自身的GPU集群来支撑多Agent并行推理和训练。这种框架一旦从实验室扩散到机器人公司的真实产线意味着企业不仅要买算力还得把研发流程整个迁移到这套自动化闭环上。研究员团队的构成也会被重塑——过去调参手活好是核心竞争力以后可能得会设计Agent协作逻辑。在机器人学会自己研究机器人之前先被架到算力引擎上的可能是整个具身智能研究的产业链路本身。如果你的公司采购了这套框架能接受研究员晚上十点下班、由AI通宵接管实验吗
3小时成功率0到99%!英伟达让8个AI agent自己研究机器人
发布时间:2026/6/27 7:17:26
0%。那是机器人第一次尝试把针插进4毫米孔洞时的成绩。三小时之后这个数字跳到了99%。中间没有人类研究员碰过一根手指头。6月英伟达联合卡内基梅隆大学CMU和加州大学伯克利分校UC Berkeley发布了具身智能Autoresearch框架ENPIRE8个Coding Agent各自控制一台双臂机器人自己读论文、改算法、训练策略、部署实验、分析结果失败了换条路重来全程闭环。项目负责人之一的Jim Fan在社交平台上扔了一句话GEAR实验室的一部分现在已经在彻夜自我改进了我们只需要早上来读报告。这不是科幻桥段。论文里记录了Pin Insertion任务的完整轨迹——一台机器人要抓住一根针精准插进一个直径仅4毫米的孔。第一轮针歪了孔没找到。Agent自动调了算法第二轮第三轮第十轮。3个小时后100次尝试里99次成功。Jim Fan的推文下面有网友用一句话拆解了这种“自律”的代价高情商叫彻夜自我改进低情商就是没日没夜的烧token。这说法没夸张。ENPIRE的运转逻辑本质上是给AI研究员搭了一套24小时不休的物理实验台。框架分成四个模块EN环境模块负责自动复位和自动评分PI策略改进模块尝试行为克隆、强化学习甚至混搭方案R把新策略部署到真实机械臂上跑数据E则是8个Agent之间的进化机制——它们各自占一台机器人通过Git共享代码有效的方案被吸收失败的路线被淘汰。四个模块连起来就是一个“提想法-训练-真机测-自动打分-总结经验-再提新想法”的闭环。环境模块可能是最反常识的一环。在仿真里实验失败了一句env.reset()就能重来。但物理世界没有reset键。以GPU插拔任务为例一次实验结束后机器人必须先把GPU从主板上拔出来移到指定位置释放再退回去。整个过程涉及复杂的力控针脚一歪就废了。扎带穿孔任务更离谱——Agent得自己判断“扎带尾巴有没有穿过头”。为此它自己搞了一套视觉检测方案顶部和侧面两个摄像头同时盯着目标区域交叉验证。这些自动复位和自动评分的逻辑全是Agent在实验过程中自己写出来的。另一个容易被误读的点在于Agent输出的不是一段控制脚本而是一个可以直接部署到机器人上的Policy。这和此前Code as Policy一类的思路有根本区别。用控制脚本意味着每次任务变了人还得重写。用Policy意味着Agent自己在真实环境里筛选出了可行方案下次直接调用。GEAR实验室这步棋踩在了一个很微妙的时间点上。具身智能研究过去几年最大的瓶颈不是算法不够好而是人太慢。一个博士生调参一天只能跑十几个rollout要熬夜守着机器人复位、记录、分析。ENPIRE把这整个流程的“值守”职责从人类手里抠掉了。研究员确实不用再通宵盯着屏幕了但代价是得烧掉多少token才能喂出这3小时里99%的成功率论文没有公布具体数字。有从业者在社区里算了一笔账8台机器人同时跑每个Agent背后是大模型反复调用、视觉检测、策略搜索3小时消耗的算力成本可能抵得上一个小团队一周的实验预算。更大的变量在产业端。ENPIRE极度依赖英伟达自身的GPU集群来支撑多Agent并行推理和训练。这种框架一旦从实验室扩散到机器人公司的真实产线意味着企业不仅要买算力还得把研发流程整个迁移到这套自动化闭环上。研究员团队的构成也会被重塑——过去调参手活好是核心竞争力以后可能得会设计Agent协作逻辑。在机器人学会自己研究机器人之前先被架到算力引擎上的可能是整个具身智能研究的产业链路本身。如果你的公司采购了这套框架能接受研究员晚上十点下班、由AI通宵接管实验吗