更多的机器人示范数据、更大的视觉-语言-动作VLA模型再配上更懂“物理定律”的世界模型就可以实现“通才机器人智能”吗这是当前具身智能的主流研究范式但一篇刚刚发表在 arXiv 上的研究论文却给出了一个打脸的结论并不可行。在这篇立场论文中来自具身智能数据初创公司 Motoniq 团队及其合作者指出了当前 VLA 和世界模型研究范式的不足、真正物理智能缺失的“四个组件”以及实现物理世界可泛化机器人的未来研究方向。论文链接https://arxiv.org/abs/2606.06556具体而言通用机器人真正缺的不只是更大的策略模型而是一套能把非结构化物理行为转化为监督信号的机制只有补齐数据接口、具身接口、世界模型接口和奖励接口这四个关键组件机器人才能不只依赖示范数据而是在更广阔的物理世界中学习。图从物理经验到机器人可用的监督。当然这篇立场论文并非认为 VLA 模型、世界模型不重要。相反它们更像整套物理智能系统中的一层背后离不开数据、本体、动力学、奖励和部署反馈的支撑。为什么说现有范式不完整研究团队指出机器人原生监督、视频弱监督和仿真与世界模型构成了当前具身智能研究的主要范式。目前的进展和不足如下机器人原生监督的进展与不足目前主流的机器人学习仍然依赖机器人能直接学习的数据比如观测-动作轨迹、任务标签、语言指令和成功信号。BridgeData V2、DROID、Open X-Embodiment 扩大了这类数据的规模也为 OpenVLA、GR00T N1、Gemini Robotics 等系统提供了训练基础。但最有效的监督依然来自已经 grounded 的机器人轨迹。动作标签、任务描述和成功/失败信号要么在采集时直接记录要么在后期补齐VLA 的扩展至今仍建立在预先整理好的监督数据之上。弱监督视频信息丰富却难以直接用互联网上有大量人类操作视频。它们能展示任务怎么做、物体怎么动、什么时候发生接触但不能直接变成机器人可执行的动作。现有工作更多是把这类视频当作间接监督。R3M 用来预训练视觉表示VIP 用来刻画任务进度LAPA 和 UniVLA 则尝试从中学习潜在动作再映射到机器人控制。但视频中的信息并不能直接用于机器人学习潜在动作不是指令进度信号未必能直接作为奖励人类的操作策略也未必适用于特定机器人具身。生成物理经验仿真与世界模型受限于真实机器人数据采集成本研究团队开始借助仿真和世界模型补充训练经验目前进展也从 MimicGen、RoboCasa365、RoboGen 等数据生成方法扩展到 DreamerV3、V-JEPA 2 等控制与交互仿真探索以及 ParticleFormer、ContactGaussian-WM 等面向点云和接触操作的建模工作。不过研究团队也指出现有世界模型仍有明显局限。除了生成逼真的未来画面未来关键更在于能否保留决定控制成败的物理变量包括几何形状、物体状态、接触、力、稳定性和材料响应。若忽略接触、质量和摩擦预测结果即便视觉上合理也难以作为可靠的机器人监督信号。物理智能缺失的四个组件在回顾现有研究之后研究团队指出下一步研究的突破口未必在更大的模型上而更可能取决于这四个缺失组件1.物理数据引擎与具身自动标注要让机器人利用更广泛的物理经验首先需要一个“物理数据引擎”。现在的机器人学习大多依赖已经整理好的训练样本而人类视频、可穿戴传感器数据、工厂流程和失败轨迹虽然包含丰富的物理交互信息却难以直接用于训练。为此研究团队提出了“具身自动标注”Embodied Autolabelling即从原始数据中自动识别任务起止、操作对象、接触、状态变化和结果并完成时间对齐、事件分割和状态估计。研究团队还指出人类视频和可穿戴数据不仅可以用于学习任务也有助于机器人理解人的动作和互动方式。2.跨具身的任务保留重定向跨具身的任务保留重定向关注的是如何把潜在物理动作或人类演示转成机器人可执行的动作保留其对世界的预期效果。不同具身在运动学、动力学、传感器和接触面上差异很大因此需要保留任务相关的物理变化如物体位移、姿态变化、接触状态和插入时的对齐关系。3.物理扎根的世界模型物理扎根的世界模型用于预测动作带来的物理后果例如物体是否会滑落、接触是否会丢失、抽屉是否会卡住。这类模型关注的不是视觉上是否逼真而是与任务相关的几何、接触、力、约束、材料属性和任务进度能否被正确预测。研究团队也强调世界模型还需要具备可靠的不确定性估计能力。4.自我改进的部署循环机器人执行动作后需依据任务目标判断结果是否有效这依赖任务条件化的奖励扎根Task-Conditioned Reward Grounding。这样以来部署轨迹因此不再只是成败记录而会转化为监督信号推动闭环迭代并进一步定位失败来源。图下一代机器人从物理经验到物理智能未来方向目前当前各类物理经验都只提供了不完整的监督机器人数据缺标签视频缺动作可穿戴数据不绑定具体机器人具身仿真则受限于物理保真度。未来需要构建物理数据引擎把这些异构来源统一为同一底层物理结构的不同视图并进一步转化为结构化标签。研究团队也提到世界模型在表示选择上仍未形成统一方案。现有的像素表示、物体中心表示以及点云、网格、神经场、Gaussian Splatting 等三维表示都有局限对接触、受力和材料响应的建模也还不够好。未来需要发展物理扎根的世界模型并提升其不确定性量化能力。与此同时目前跨具身重定向仍缺少清晰的实现和验证路径。未来需要从姿态保留走向任务效果保留即重点不再是复制动作形式而是保留动作对世界产生的实际效果。最后研究团队提到部署中的失败往往还难以沉淀为有针对性的改进信号。未来需要建立任务条件化的闭环机制使系统能够区分进度、失败、恢复和成功并据此更新相应组件而不是笼统地重新训练。更多技术细节详见原论文。作者夏千斯如需转载或投稿请直接在本文章评论区内留言
具身机器人研究全都错了?最新论文:不能只靠VLA和世界模型
发布时间:2026/6/10 17:45:46
更多的机器人示范数据、更大的视觉-语言-动作VLA模型再配上更懂“物理定律”的世界模型就可以实现“通才机器人智能”吗这是当前具身智能的主流研究范式但一篇刚刚发表在 arXiv 上的研究论文却给出了一个打脸的结论并不可行。在这篇立场论文中来自具身智能数据初创公司 Motoniq 团队及其合作者指出了当前 VLA 和世界模型研究范式的不足、真正物理智能缺失的“四个组件”以及实现物理世界可泛化机器人的未来研究方向。论文链接https://arxiv.org/abs/2606.06556具体而言通用机器人真正缺的不只是更大的策略模型而是一套能把非结构化物理行为转化为监督信号的机制只有补齐数据接口、具身接口、世界模型接口和奖励接口这四个关键组件机器人才能不只依赖示范数据而是在更广阔的物理世界中学习。图从物理经验到机器人可用的监督。当然这篇立场论文并非认为 VLA 模型、世界模型不重要。相反它们更像整套物理智能系统中的一层背后离不开数据、本体、动力学、奖励和部署反馈的支撑。为什么说现有范式不完整研究团队指出机器人原生监督、视频弱监督和仿真与世界模型构成了当前具身智能研究的主要范式。目前的进展和不足如下机器人原生监督的进展与不足目前主流的机器人学习仍然依赖机器人能直接学习的数据比如观测-动作轨迹、任务标签、语言指令和成功信号。BridgeData V2、DROID、Open X-Embodiment 扩大了这类数据的规模也为 OpenVLA、GR00T N1、Gemini Robotics 等系统提供了训练基础。但最有效的监督依然来自已经 grounded 的机器人轨迹。动作标签、任务描述和成功/失败信号要么在采集时直接记录要么在后期补齐VLA 的扩展至今仍建立在预先整理好的监督数据之上。弱监督视频信息丰富却难以直接用互联网上有大量人类操作视频。它们能展示任务怎么做、物体怎么动、什么时候发生接触但不能直接变成机器人可执行的动作。现有工作更多是把这类视频当作间接监督。R3M 用来预训练视觉表示VIP 用来刻画任务进度LAPA 和 UniVLA 则尝试从中学习潜在动作再映射到机器人控制。但视频中的信息并不能直接用于机器人学习潜在动作不是指令进度信号未必能直接作为奖励人类的操作策略也未必适用于特定机器人具身。生成物理经验仿真与世界模型受限于真实机器人数据采集成本研究团队开始借助仿真和世界模型补充训练经验目前进展也从 MimicGen、RoboCasa365、RoboGen 等数据生成方法扩展到 DreamerV3、V-JEPA 2 等控制与交互仿真探索以及 ParticleFormer、ContactGaussian-WM 等面向点云和接触操作的建模工作。不过研究团队也指出现有世界模型仍有明显局限。除了生成逼真的未来画面未来关键更在于能否保留决定控制成败的物理变量包括几何形状、物体状态、接触、力、稳定性和材料响应。若忽略接触、质量和摩擦预测结果即便视觉上合理也难以作为可靠的机器人监督信号。物理智能缺失的四个组件在回顾现有研究之后研究团队指出下一步研究的突破口未必在更大的模型上而更可能取决于这四个缺失组件1.物理数据引擎与具身自动标注要让机器人利用更广泛的物理经验首先需要一个“物理数据引擎”。现在的机器人学习大多依赖已经整理好的训练样本而人类视频、可穿戴传感器数据、工厂流程和失败轨迹虽然包含丰富的物理交互信息却难以直接用于训练。为此研究团队提出了“具身自动标注”Embodied Autolabelling即从原始数据中自动识别任务起止、操作对象、接触、状态变化和结果并完成时间对齐、事件分割和状态估计。研究团队还指出人类视频和可穿戴数据不仅可以用于学习任务也有助于机器人理解人的动作和互动方式。2.跨具身的任务保留重定向跨具身的任务保留重定向关注的是如何把潜在物理动作或人类演示转成机器人可执行的动作保留其对世界的预期效果。不同具身在运动学、动力学、传感器和接触面上差异很大因此需要保留任务相关的物理变化如物体位移、姿态变化、接触状态和插入时的对齐关系。3.物理扎根的世界模型物理扎根的世界模型用于预测动作带来的物理后果例如物体是否会滑落、接触是否会丢失、抽屉是否会卡住。这类模型关注的不是视觉上是否逼真而是与任务相关的几何、接触、力、约束、材料属性和任务进度能否被正确预测。研究团队也强调世界模型还需要具备可靠的不确定性估计能力。4.自我改进的部署循环机器人执行动作后需依据任务目标判断结果是否有效这依赖任务条件化的奖励扎根Task-Conditioned Reward Grounding。这样以来部署轨迹因此不再只是成败记录而会转化为监督信号推动闭环迭代并进一步定位失败来源。图下一代机器人从物理经验到物理智能未来方向目前当前各类物理经验都只提供了不完整的监督机器人数据缺标签视频缺动作可穿戴数据不绑定具体机器人具身仿真则受限于物理保真度。未来需要构建物理数据引擎把这些异构来源统一为同一底层物理结构的不同视图并进一步转化为结构化标签。研究团队也提到世界模型在表示选择上仍未形成统一方案。现有的像素表示、物体中心表示以及点云、网格、神经场、Gaussian Splatting 等三维表示都有局限对接触、受力和材料响应的建模也还不够好。未来需要发展物理扎根的世界模型并提升其不确定性量化能力。与此同时目前跨具身重定向仍缺少清晰的实现和验证路径。未来需要从姿态保留走向任务效果保留即重点不再是复制动作形式而是保留动作对世界产生的实际效果。最后研究团队提到部署中的失败往往还难以沉淀为有针对性的改进信号。未来需要建立任务条件化的闭环机制使系统能够区分进度、失败、恢复和成功并据此更新相应组件而不是笼统地重新训练。更多技术细节详见原论文。作者夏千斯如需转载或投稿请直接在本文章评论区内留言