Motoniq.ai等机构联合揭示下一代机器人智能的四个缺失拼图 这项由Motoniq.ai联合斯坦福大学、ETH苏黎世联邦理工学院、意大利技术研究所、达姆施塔特工业大学以及UCL人工智能中心的研究人员共同撰写的立场论文于2026年6月发表在arXiv预印本平台论文编号为arXiv:2606.06556。有兴趣深入阅读的读者可以通过这个编号找到原文。这篇论文不是在汇报某一项具体实验的结果而是在做一件更重要的事告诉整个机器人研究领域我们可能走错了方向或者说我们只走对了一半。**机器人研究正在进入一个大模型时代但这个时代的地基还没打好**近几年人工智能领域有一个非常流行的思路只要收集足够多的数据、训练足够大的模型机器就能学会做任何事。这个思路在语言领域大获成功——ChatGPT就是最典型的例子。于是机器人研究者们也想把同样的路子复制过来收集大量机器人操作示范、训练巨型视觉-语言-动作模型简称VLA可以理解为一种能看图说话并做动作的机器人大脑期待机器人自然而然地学会各种技能。然而这篇论文的核心观点是这条路是必要的但远远不够。机器人面临的根本瓶颈不是模型不够大也不是数据不够多而是**现有的数据绝大多数无法被机器人直接使用**。为了解释这个问题可以用一个建筑工地的比喻贯穿全文。VLA模型就像是一位熟练的建筑工人他技术精湛但他只能使用已经预先加工好的标准建材——切割整齐的木板、规格统一的砖块、已经预拌好的水泥。然而世界上绝大多数的原材料都不是这种形态有的是树干、有的是泥土、有的是石块。如果我们想真正大规模地建造就必须有一套把原材料加工成标准建材的系统。这套系统正是当前机器人领域最缺失的东西。**一、世界上到处都是原材料但机器人用不上**地球上每天发生着数以亿计的人类活动人们在厨房切菜、在工厂装配零件、在家里整理房间、在网上分享各种操作视频。这些活动包含了海量关于如何与物体交互的信息——哪只手该抓哪里、用多大力气、什么时候松手、失败了怎么恢复。从信息量的角度看这简直是取之不尽的宝藏。但机器人训练需要的数据长什么样它需要精确的动作标签——每一帧画面对应机器人关节应该转多少度、手臂应该往哪个方向移动多少毫米。它需要任务标签——这段操作是在干什么、完成了没有、哪里出错了。它还需要奖励信号——哪些动作是好的、哪些是坏的。人类日常生活的视频里这些东西统统没有。一段人手切菜的视频对机器人来说就像是一张地图但没有比例尺、没有坐标系、没有路线标注——你知道目的地大概在哪个方向但根本无法导航。这就是论文所说的接地气问题Grounding Problem如何把广泛存在于世界上的物理经验转化成机器人能够理解和使用的训练信号。目前研究者们已经在多个方向上做出了努力论文对这些努力进行了详尽的梳理和评价。**二、已有的努力机器人原生数据的崛起与局限**过去几年机器人领域积累了越来越多的原生数据——也就是直接由机器人执行并记录的操作轨迹。这些数据就像建筑工地上已经加工好的标准建材可以直接拿来用。在数据集层面各个研究机构贡献了规模可观的成果。BridgeData V2提供了约六万条在二十四种不同环境中收集的机械臂操作轨迹DROID则收集了约七万六千条示范轨迹相当于三百五十小时的操作录像由分布在全球各地的数据收集者完成RH20T更进一步收集了超过十一万条接触丰富的操作序列同时包含视觉、力觉、声音和动作信息。这些数据集的出现证明了机器人学习在数据量扩大后确实会变得更好多样性不是锦上添花而是泛化能力的核心要求。在模型层面RT-1使用约十三万条真实机器人操作数据训练出了一个能够响应语言指令、执行七百多种任务的通用控制器RT-2更进一步把互联网上海量的图文数据和机器人轨迹数据混合训练让模型能把网络上的语义知识迁移到机器人控制中OpenVLA则在约九十七万条操作示范上训练了一个七十亿参数的开源视觉-语言-动作模型Physical Intelligence的π0采用了一种叫流匹配的架构在继承大型视觉-语言预训练模型知识的同时输出连续的机器人动作。还有专门针对人形机器人的系统比如英伟达的GR00T N1、谷歌的Gemini Robotics以及Figure公司的Helix它们都试图把VLA范式从桌面操作扩展到全身控制。然而这一切努力的共同局限在于**它们的成功正是因为数据已经是标准建材的形态**。每一条机器人轨迹都需要有人或系统事先把它表达成机器人可以理解的动作、观察、任务描述和成功标签。这是VLA强大的原因也是它无法简单扩展的原因——世界上绝大多数的物理行为数据并不是这种形态到达我们手中的。**三、弱标注数据的价值与困境视频里的宝藏够不着**既然机器人原生数据来之不易研究者们自然想到能不能从人类行为视频中提取有用的东西毕竟互联网上有数不清的人类操作视频从YouTube的烹饪教程到工厂操作记录信息量远超任何机器人数据集。这个方向确实有进展。R3M在Ego4D这个巨型人类第一视角视频数据集上训练视觉表征让机器人的眼睛能更好地理解人类世界中的物体和动作VIP用时间上的远近作为任务进度的代理信号从人类视频中提取能支持机器人强化学习的特征MVP和VC-1则专注于大规模视觉预训练对机器人操作的帮助。更进一步的是LAPA潜在动作预训练它试图从视频帧的变化中学习一种潜在动作的表征——也就是说不直接要求视频提供机器人能执行的动作指令而是先提取出物体是怎么变化的这种中间表示再用少量机器人数据把这种中间表示翻译成具体动作。UniVLA走了类似的路线试图从任意视角、任意身体形态的数据中提取以任务为中心的潜在动作。在奖励信号这个维度也有一批工作尝试从视频中推断任务做得怎么样了。PROGRESSOR从无标注视频中学习一种通用的奖励函数Adapt2Reward把视频-语言模型迁移成语言条件下的奖励函数ReWiND利用视频倒放和不对齐的视频-语言对作为负样本来训练奖励模型TimeRewarder通过帧对之间的时间距离来推导进度信号SARM则用细粒度的子任务标签来监督奖励模型以便判断复杂任务的进展。然而这些方法都面临同一个本质困难**弱标注数据并没有消除接地气问题只是把它移动到了别处**。从视频学到的潜在动作不是机器人能执行的指令它只是一种物理变化的描述代码必须经过一个翻译步骤才能变成真正的机器人动作。从视频提取的进度信号也不一定就是对新机器人身体有效的奖励。人类的操作策略更不一定能被有着完全不同身体结构的机器人复现。视频扩展了物理经验的来源但同时也使接地气问题变得更加无法回避。**四、生成物理经验的尝试仿真、世界模型以及它们的硬伤**除了从已有的观察中提取信号还有另一条路直接生成更多的物理经验。如果真实的机器人操作太贵、太慢、太危险那能不能在计算机里模拟出足够真实的环境让机器人在里面无限练习在仿真环境方面RLBench提供了一百种精心设计的操作任务可以用运动规划自动生成无限量的示范Meta-World标准化了多任务和元强化学习的评测ManiSkill专注于从三维视觉输入进行通用操作CALVIN把挑战推进到需要根据语言指令组合多个行为的长时序操作LIBERO则研究机器人的终身学习也就是如何在学会新任务的同时不忘记旧任务。这些仿真环境的价值在于让研究可以大规模、可复现、可比较但它们有一个前提假设环境设计者已经把状态空间、动作空间、任务定义、物体资产和成功条件全部规定好了。更雄心勃勃的是MimicGen——它能从不到两百个人类示范出发通过把示范片段适配到新的物体位置和环境中自动生成超过五万条操作示范覆盖十八种任务。RoboCasa把这个思路扩展到日常家务场景构建了一个大规模的模拟厨房环境RoboCasa365更进一步包含三百六十五种日常家务任务、两千五百个厨房场景和超过两千小时的机器人交互数据。RoboGen则用基础模型和生成模型自动构建任务、场景和训练数据试图让机器人技能的获取完全自动化。真实到仿真再回到真实Real-to-Sim-to-Real是另一种思路先从少量真实数据重建仿真环境再在仿真中大量训练然后把策略部署回真实世界。RialTo用少量真实数据构建数字孪生在仿真中用强化学习增强模仿学习策略RL-GSBridge使用三维高斯泼溅一种能生成高保真三维场景的技术技术重建真实场景Real-is-Sim则在数据收集、训练、评估和部署的全过程中都使用动态数字孪生。还有专门针对导航任务的SOUS VIDE和SINGER以及利用三维高斯泼溅可微分渲染特性进行端到端强化学习训练的GRaD-Nav和GRaD-Nav。世界模型World Model是这个方向中最令人期待的概念。世界模型不是一个被动的视频生成器而是一个能够预测如果我做了这个动作世界会变成什么样的预测系统——就像在大脑里装了一个沙盘可以在里面模拟各种可能性。这个想法可以追溯到Schmidhuber在1990年代的早期工作后来被Ha和Schmidhuber在深度学习时代重新推广PlaNet和Dreamer系列工作让它变得实用DreamerV3更证明单一的世界模型算法可以用固定的超参数解决各种控制任务DayDreamer则直接在物理机器人上学习世界模型。在机器人领域RoboDreamer学习用于机器人想象的组合式视频世界模型UniSim尝试从多样化数据集学习一个通用的交互式模拟器DeepMind的Genie从无标注的互联网视频中学习生成式交互环境甚至不需要真实的动作标签就能实现逐帧控制V-JEPA 2把互联网视频和少量机器人交互数据结合展示了预测、规划和零样本机器人控制能力。但关键问题来了**一个对机器人有用的世界模型需要的不只是视觉上的真实感而是物理上的准确性**。它必须能预测物体会不会滑落、接触会不会建立、关节会不会卡住、材料会不会变形。为此研究者们发展了一系列更扎实的方法FOCUS用以物体为中心的世界模型来表征操作中的物体和它们的交互ParticleFormer学习基于三维点云的世界模型直接从真实机器人感知数据预测多物体、多材料的动态PointWorld把状态和动作统一在三维空间域中从RGB-D观察和机器人动作预测完整场景的三维点流ContactGaussian-WM结合高斯视觉表示和可微分接触动力学学习接触丰富的物理操作世界模型。在更基础的层面深度拉格朗日网络、哈密顿神经网络、拉格朗日神经网络、交互网络、图网络物理模拟器等一系列工作试图把物理定律直接编码进神经网络的结构中——让模型不只是从数据中学习物理而是从一开始就懂得守恒定律、几何约束和对象关系。还有一个常被忽视但至关重要的问题**世界模型什么时候会出错它自己知道吗** 一个机器人如果用了一个不知道自己局限在哪里的世界模型来做规划就可能陷入一个恶性循环世界模型的幻觉导致错误的动作错误的动作把系统带到世界模型更不熟悉的地方进而产生更严重的幻觉。Mei等人的工作学习了一种带有统计标定的潜在不确定性量化方法可以把不确定性可视化到像素层面Li等人的工作进一步证明了不确定性量化对于用世界模型训练强化学习策略的重要性Ward等人则展示了一个带有标定潜在空间不确定性的世界模型可以用来检测VLA操作策略在运行时的错误。所有这些努力揭示的共同点是**生成的经验只有在保留了对控制至关重要的物理变量时才是有用的**。一个视觉上真实但忽略接触、力、摩擦或稳定性的预测对机器人控制来说不是可靠的训练信号。这让接地气问题再次回到视野中心想象中的未来只有在物理上是有根基的、可操作的时候才对机器人学习有意义。**五、四个缺失的拼图从物理经验到物理智能**经过以上梳理论文给出了它最核心的观点下一代机器人系统需要的不只是更大的策略模型而是四个此前缺失的关键组件。用建筑工地的比喻来说我们不只需要更多更好的建筑工人VLA模型我们更需要完整的原材料加工体系。**第一块拼图物理数据引擎与具身自动标注**这是整个体系的起点。物理数据引擎要做的事是把各种各样的原始物理经验——机器人操作轨迹、人类行为视频、穿戴式传感器数据、触觉流、工厂操作记录、仿真数据、部署失败记录——转化成机器人学习实际需要的结构化信号物体状态、接触事件、任务阶段、潜在动作、目标和成功/失败标签。论文用数学语言精确描述了这个问题的复杂性。原始经验是异步的、多模态的一个穿着感知服装进行示范的人可能同时产生视频帧、身体姿态测量、手部轨迹、触觉信号尖峰和语言指令但这些信号的采样频率不同时间戳不一致。系统需要先把这些异步流对齐到一个共同的物理时间线上识别出潜在的物理事件序列比如接近杯子→接触开始→抓握→提起→放置再对每个事件推断物体状态、接触标签、任务阶段、潜在动作代码和进度/奖励信号。这个过程论文称为具身自动标注不是普通的语义视频理解给视频加字幕说一个人把杯子放到托盘上而是恢复出一系列物理事件的精确描述包括杯子的姿态、手与杯子的接触、当前任务阶段、正在执行的潜在变换以及任务进度是否在增加。这些物理上有根基的标签才能被用于训练感知模型、奖励模型、重定向系统、世界模型或机器人策略。穿戴式传感提供了特别有价值的信号。一套动作捕捉或感知服能提供普通视频缺乏的结构化信号身体姿态、手部轨迹、时序信息、接触事件、触觉线索和物体交互痕迹。这意味着人类示范不再只是一段视频而是一个包含任务阶段边界、手-物接触、物体状态变化、意图、纠正和候选技能片段等丰富标签的信息来源。更有意思的是人类行为数据还有另一层价值它不只是在教机器人怎么完成任务还在教机器人如何理解人类——人是怎么移动的、怎么使用身体和环境、怎么相互交互。未来的机器人智能应该包含一个关于人类行为的协作模型这类人类数据应该被用于训练能够感知人类、配合人类、与人类协作的策略。**第二块拼图跨身体的任务保留重定向**从物理经验中推断出结构化的事件序列并不等于拥有了机器人策略。一段人类示范、一个网络视频或者一段穿戴传感器的轨迹可能揭示了物理上发生了什么——哪个物体移动了、哪里发生了接触、执行了哪个任务阶段、进度怎样——但它仍然没有告诉这个特定的机器人应该怎么行动。这就是所谓的身体鸿沟。人类的手、平行夹爪、灵巧手、移动机械臂、四足机器人和人形机器人拥有完全不同的运动学、动力学、传感器、动作空间、接触表面和失效模式。核心问题不是如何复制人类的动作而是如何在一个不同的身体执行时保留那个动作对世界产生的任务相关物理效果。论文把这称为任务保留重定向。重定向可以保留不同层次的不变量。最弱的层次是姿态保留把人手或手臂的运动映射到机器人末端执行器的轨迹。强一些的是接触保留确保机器人在恰当的时刻触碰到物体的正确表面。更强的是物体状态转换保留确保抽屉打开了、杯子被提起来了、销钉对齐了。最强的形式是意图或技能的保留机器人可能使用完全不同的运动方式但在同样的约束条件下完成了同样的任务。通用机器人学需要重定向从姿态保留的模仿升级到任务效果保留的翻译。正确的重定向目标不是人类的关节轨迹而是任务相关的物理变换本身对于打开抽屉来说是抽屉的位移对于放置物体来说是物体的姿态对于插入操作来说是相对对齐程度对于抓握来说是接触状态。这就是为什么穿戴式传感和具身自动标注如此有价值它们提供的正是任务保留重定向所需的中间变量——手-物接触、力相关事件、物体状态变化、任务阶段边界和潜在物理动作。这些变量比原始的人类关节角度更具可迁移性比视频字幕更具信息量。**第三块拼图超越视觉真实感的物理接地世界模型**推断物理事件序列并将其重定向仍然留下了一个核心问题机器人必须能够对后果进行推理。一个候选动作只有在机器人能够预判它对世界会产生什么影响时才是有用的。物体会移动还是滑落接触会建立还是失去抽屉会打开还是卡住杯子放手后会保持稳定吗布料会朝预期方向变形吗这些不只是视觉问题它们需要对几何、接触、力、约束、材料属性和任务进度进行推理。一个对机器人真正有用的世界模型承担的角色与通用视频生成器截然不同。视频模型可以生成看起来真实的未来帧但机器人需要的是可操作的预测这个动作是否产生了预期的物体状态转换抓握是否稳定会不会发生碰撞插入会不会因为偏移而失败物体松手后会不会倒因此机器人世界模型应该尽可能在结构化的物理变量上工作物体姿态、空间关系、接触、约束、速度、力、可变形状态以及摩擦、质量、刚度或顺应性等物理属性。最重要的一点是后果预测应该是任务条件的。世界模型不需要对未来的每一个细节都预测得同样好。它需要预测的是与任务相关的那部分未来。打开抽屉时抽屉的位移和把手接触比背景纹理更重要倒水时液体状态和容器姿态比桌面外观更重要折叠布料时可变形几何和接触点比像素级的视频重建更重要。机器人世界模型的目标应该与下游控制对齐而不只是视觉重建。问题不是未来看起来真实吗而是预测是否保留了决定成功或失败的物理后果。在这个框架中世界模型在整个系统中扮演着中心角色。它可以在动作执行前用来评估候选的重定向动作在规划过程中搜索更好的替代方案在失败后解释哪里出了问题以及在训练过程中生成反事实经验。例如如果一段人类示范暗示了潜在动作向外拉抽屉重定向模型可能提出几种机器人运动方案物理接地世界模型就可以评估哪种运动最可能建立正确的接触、沿正确方向施力、避免碰撞并产生预期的抽屉位移。**第四块拼图自我改进的部署循环**机器人执行动作之后核心问题不再只是发生了什么而是发生的事情有用吗。世界模型可能预测到杯子会移动、抽屉会打开重定向系统可能提出了一个物理上可行的动作策略也在真实世界中执行了那个动作。但从结果中学习需要对结果进行任务条件的解读动作让任务有进展了吗它解决了预期的任务吗失败是因为感知、接触、力、时序、规划还是身体不匹配最终状态相对于目标来说是好还是坏这就是为什么机器人奖励模型应该是任务条件的。同一个物理状态在不同的目标下意味着完全不同的事情杯子放在桌上对于把杯子放下来是成功对于拿起杯子是失败对于打开抽屉则无关紧要。奖励不只是附加在状态上的一个数字它是在一个目标下对物理进度的解读。一个好的奖励模型应该能够估计相关接触是否发生、物体是否按预期方式移动、系统是否进入了可恢复或不可恢复的失败模式以及最终配置是否满足了任务要求。这个奖励接地气的问题正是让自我改进的部署成为可能的关键。在一个已部署的机器人系统中每一次执行结果都应该不只是一个通过/失败记录而应该成为一个带标签的物理事件。成功的执行提供了鲁棒任务完成的样本失败的执行提供了关于缺少接触、错误物体状态、不稳定抓握、对齐不佳、不安全运动或奖励误判的信息人类纠正则提供了高价值的监督信号——它不只告诉机器人它错了还经常揭示任务本应如何进行。如果这些结果被反馈回物理数据引擎系统就可以更新它的奖励模型、重定向模型、世界模型和策略。由此形成的循环是部署策略→观察结果→推断任务条件下的进度/成功/失败→解释失败或纠正→把接地气监督添加到数据引擎→更新奖励模型、世界模型、重定向和策略→重新部署。这是一个仅仅执行训练好的策略的机器人与一个随时间积累能力的机器人学习系统之间的本质区别。没有奖励接地气部署轨迹很难被利用失败只是一段失败的视频成功只是一个碰巧奏效的事件。有了任务条件的奖励接地气部署轨迹就变成了结构化监督。系统可以问哪个子目标失败了、缺少哪个接触、哪个物体状态错了、什么样的替代动作可以改善结果**六、整幅拼图从孤立的政策到积累的物理智能**把四块拼图放在一起就能看清论文描述的完整图景。物理数据引擎把异质经验转化为潜在物理事件任务保留重定向把那些事件映射到机器人动作物理接地世界模型预测那些动作的后果任务条件奖励接地气解读结果。部署则持续提供新的事件重新进入同一条流水线。长期目标是一个积累型的物理智能系统每一次人类示范、每一段网络视频、每一次仿真推演、每一次机器人失败、每一次人类纠正都成为下一代机器人行为的结构化监督。论文明确指出VLA模型在这个图景中仍然重要但它只是整个物理智能栈中的一层——一个依赖上游接地气机制的策略接口这些上游机制处理数据、身体、动力学、奖励和部署反馈。这个图景也意味着我们需要一套全新的评价标准。评估通用机器人的问题不应该只是更大的策略能解决更多任务吗而应该是系统能从人类行为中推断接触、物体状态变化和任务阶段吗它能在不只复制姿态的情况下把示范的物理效果重定向到新的身体吗它的世界模型能预测对成功和失败重要的后果吗而不只是生成看起来真实的未来帧它的奖励模型能区分当前目标下的进度、失败、恢复和成功吗部署失败能更新栈中正确的组件吗——策略、奖励模型、世界模型还是重定向机制这些问题定义了超越VLA扩展的机器人接地气议程。归根结底这篇论文传达的信息是机器人领域的下一个基础模型可能不会是一个单一的巨型模型而是一个系统一个把异质经验转化为结构化监督的物理数据引擎、一个把任务相关效果映射到机器人动作的身体接口、一个生成可操作反事实的物理接地世界模型以及一个把成功、失败和纠正转化为未来改进的任务条件部署循环。在这样的系统中每一次人类示范、每一段网络视频、每一次仿真推演、每一条触觉轨迹、每一次机器人失败和每一次人类纠正都成为物理智能的一部分不断积累的监督引擎。机器人因此需要的远不止VLA。它们需要能让物理经验变得可用的架构支柱。机器人领域的进步不只取决于扩展策略还取决于构建将世界上的行为数据连接到机器人动作、奖励、模型和持续部署的接地气机制。这个领域面临的核心挑战是从依赖机器人原生数据集走向世界规模的物理监督从孤立的策略走向能从物理世界本身学习的系统。对这一研究方向感兴趣的读者可以通过arXiv编号2606.06556获取完整论文深入了解每个部分的技术细节和数学形式化表述。QAQ1VLA模型视觉-语言-动作模型到底是什么为什么它不够用AVLA模型是一种能看图说话并做动作的机器人大脑它接收摄像头画面和语言指令输出机器人的具体动作。它不够用是因为它只能处理已经被整理成标准格式的数据——有明确动作标签的机器人操作轨迹。而世界上绝大多数的人类行为视频、工厂操作记录等都缺乏这些标签VLA根本无法直接从中学习。Q2物理接地世界模型与普通视频生成模型有什么区别A普通视频生成模型追求画面真实感能生成看起来像真的未来画面。物理接地世界模型则要求预测对机器人控制有实际意义的物理变量——比如抓握是否稳定、接触会不会建立、物体松手后会不会倒。一个画面真实但忽视了摩擦力和接触关系的预测对机器人规划来说毫无价值这就是两者的本质区别。Q3四个缺失组件中的任务保留重定向要解决什么问题A它要解决身体鸿沟问题。人类手臂的动作无法直接被机械手复制因为两者的关节结构、力量范围和接触方式完全不同。任务保留重定向的目标不是复制人类的关节轨迹而是找到机器人自己的运动方式使其对世界产生的物理效果——比如抽屉打开的距离、物体被提起的姿态——与人类示范的效果尽可能一致。