2026年5月14日美国Figure AI做了一场全程无剪辑直播——Figure 03人形机器人连续工作33小时分拣了超过4万件快递包裹。零人工干预完全自主跑完整个轮班。每秒处理0.37件效率是人工的1.8倍不规则包裹识别率99.7%。它自己换了电池自己做了诊断不需要人盯着。这不只是机器替人的新闻。这是人工智能正式从说话走向动手的标志性事件——整个行业正在发生一次根本性的范式迁移从语言智能到物理智能。这个新范式有一个名字物理AIPhysical AI。01什么是物理AI物理AI是让人工智能从屏幕里说话到在真实世界里干活的跨越。现在的AI——ChatGPT、DeepSeek、豆包——本质上都是在处理信息。它们能写文章、能做分析、能对话核心能力是对文本和图像的统计学习。你给它们一个指令它们返回一个答案仅此而已。但当你把同样一个问题交给一台机器人——把地上那个蓝色的箱子捡起来放到传送带上——AI大模型就抓瞎了。因为它需要理解物理世界的运作规律物体有多重地面摩擦力多大手臂该用多大的力这些信息文本里没有。物理AI解决的就是这个问题。它的核心是在真实物理环境中构建一个完整的闭环感知→决策→验证→执行→反馈。机器人在真实环境里看感知然后思考该怎么办决策在动手之前先用模拟器验证一遍验证然后真正执行动作执行最后把结果反馈回来优化下一轮决策反馈。整个过程像人一样——不是靠背程序而是靠真正理解物理世界。这就是物理AI和语言AI的根本区别语言AI改变的是信息流动的方式物理AI改变的是人与真实世界互动的方式。02核心技术让AI长出物理直觉物理AI能走到今天靠的是三个核心技术突破。第一代际VLA——让机器人长出眼睛和手VLAVision-Language-Action模型是物理AI的第一块基石。它的逻辑很直接给机器人装上眼睛Vision看环境装上大脑Language理解指令装上手和脚Action执行动作——三个模块统一建模端到端训练。这意味着机器人不需要被写好每一步的程序你告诉它把那个蓝色的零件放到传送带上它自己能理解、能规划、能执行。2023年VLA路线开始成熟。加州大学伯克利分校的π0模型是这个方向最早的代表作。中国也有公司同期开始自研VLA比行业巨头更早切入而且用更小的模型规模实现了接近的性能表现。但第一代VLA有一个根本局限它只能处理当下不能预测未来。你告诉机器人把快递分拣它能执行。但你问它如果这个包裹变形了怎么办它就不知道了。它缺乏对物理世界未来状态的理解能力。第二代际世界模型——让AI拥有想象力这就是世界模型World Model出现的意义。世界模型相当于给机器人装上了一个物理模拟器——它不只是看到当前环境还能预测环境接下来会怎么变化。举个例子你把一个篮球抛向空中没学过物理的人只知道球会落下来。学过物理的人能写出运动方程。而拥有世界模型的AI它在内部构建了一个完整的物理模拟器——它知道重力是9.8米/秒²知道空气阻力会随速度变化知道球的旋转会影响轨迹并且能在行动之前先在模拟器里推演一遍我这样抛球会落到哪里。这就是世界模型的核心价值从反应式执行变成预测式行动。谷歌的Genie系列模型是这个方向的代表。英伟达发布了Cosmos平台专门为机器人和自动驾驶生成高保真的合成数据——因为真实世界的物理数据太稀缺了而世界模型可以在虚拟环境里大规模生成训练数据。但第二代也有问题世界模型和VLA是分开的两个模块世界模型负责预测VLA负责执行。模块之间的信息传递存在延迟和损耗——就像人的大脑和手之间信号传递慢了半拍。第三代际融合——让预测和行动长在一起2026年真正决定性的突破出现了世界模型和VLA开始深度融合不是拼接是长在一起。智平方发布的Video2Act是这个方向的代表技术。它把世界模型直接嵌入VLA内部——模型在生成动作的同时就能结合对未来状态的隐式推演做出决策。简单说机器人在想怎么行动的同时已经在预演这个动作执行后的结果并且同步调整策略。整个过程是端到端的信息没有任何损耗。这不是简单的技术升级。这是物理AI的感知-预测-执行一体化是从能用到好用的临界跨越。032026年为什么是关键转折年三个信号说明物理AI的拐点已经来了。信号一真实场景的规模化验证Figure 03的33小时直播只是冰山一角。智平方的AlphaBot系列机器人已经在真实生产力场景中规模化部署——核心部件无故障运行时间达到2万到5万小时惠科1000台订单被摩根士丹利认定为全球生产力型机器人最大的单一订单。当机器人在真实工厂里跑起来并且能稳定地跑几千上万小时不出故障——这就是物理AI从Demo走向产品的标志。更有意思的是人类还没完全输。5月17日Figure AI又做了一场直播——1名人类实习生 VS 机器人团队10小时分拣包裹对决。结果人类分拣12924个机器人分拣12732个人类以192个的微弱优势赢了。但Figure AI创始人说了一句话这将是人类最后一次赢得比赛。这场人机对决的意义不在于谁赢谁输而在于机器人已经能和人类同台竞技了。下一次当机器人的效率再提升20%、30%——胜负的天平就会彻底倾斜。信号二技术路线收敛基础设施成熟2026年VLA世界模型融合成为行业主流方向。 英伟达Cosmos平台、谷歌Genie系列、阿里达摩院RynnBrain、蚂蚁灵波LingBot系列——全球科技巨头和中国的头部企业都在往同一个方向使劲让AI拥有对物理世界的理解、预测和操控能力。沙利文数据显示物理AI仿真及数据平台市场年复合增长率33.49%2034年规模将突破685亿美元。 这不是小打小闹这是一个正在快速形成的基础设施生态。信号三具身智能——人形机器人是物理AI的终极载体物理AI的进化和人形机器人的量产形成了相互加速的正循环。宇树科技出货5500台Figure拿到宝马5000台订单特斯拉Optimus在弗里蒙特工厂进行小批量测试——人形机器人从炫技走向变现。而人形机器人的规模化又给物理AI提供了最丰富的真实训练场景。Figure 03那场33小时的直播背后是Helix 02系统——其中System 0用超过1000小时的人类运动数据训练直接替代了109504行手工C代码实现真正的端到端感知-行动控制。机器人在工厂里干活干得越多数据越多AI越聪明机器人越能干。这是一个正向飞轮。04两种路线谁才是物理AI的终态全球物理AI的竞争目前形成了两条清晰的路。美国路线全栈定义技术制高点。英伟达从芯片到Cosmos平台到自动驾驶一整套技术栈全在自己手里。Figure AI专注具身智能用Helix系统证明端到端融合的可行性。谷歌的Genie系列、世界模型和机器人控制全链路布局。美国的逻辑是我定义标准我来搭平台我来定规则。中国路线场景牵引工程化落地。中国没有美国那样的芯片优势但有全球最丰富的制造业场景、最完整的产业链、最活跃的机器人应用市场。宇树科技用5500台出货量证明规模化制造能力优必选Walker S进了比亚迪、吉利、蔚来总装线智平方的Video2Act在同类产品中表现领先。中国的逻辑是我先跑通场景我先做到能用好用再慢慢往上游走。两条路线的底层驱动力不同但目标一致让AI真正进入物理世界成为改变生产方式的力量。如果把物理AI的产业化进程切开它正在经历三个阶段。第一阶段2024-2026技术验证与单点落地。Figure 03的33小时直播、智平方惠科千台订单、Figure宝马5000台合同——这些是本阶段的标志性事件。核心任务是证明机器人能在真实场景里稳定干活。第二阶段2027-2030工厂规模化与成本杀手入场。成本需要从目前的20-50万人民币降到10万以内才能触发制造业的大规模替代。一旦越过成本临界点人形机器人在制造业的渗透速度可能比当年新能源汽车还快。第三阶段2030走出工厂走进物理世界的每一个角落。建筑业、农业、物流、医疗——任何一个需要动手的场景都是物理AI的战场。长期市场规模预测是每年200万台出货3万亿美元以上。05 结语2026年物理AI的关键转折年。这不是人工智能发展的线性延伸而是从思考到行动的根本性跨越。Figure 03那场33小时的直播分拣了4万件包裹效率是人工的1.8倍——这只是开始。当这个效率变成5倍、10倍当成本降到10万以内当机器人在工厂里24小时不间断地跑——物理AI改变的不只是工厂里的流水线而是整个社会生产的基础逻辑。理解它现在正是时候。*部分图源网络侵联删走进具身智能真实场景看懂物理AI的底层逻辑走进宇树看懂开放生态的组织逻辑宇树的核心能力不是某一项技术而是一套快速迭代低成本制造的组织能力。它能把G1的价格压到亚$20,000靠的不是偷工减料是研发、生产、供应链的一体化效率。这种能力源于宇树在四足机器人领域多年积累的制造经验。走进优必选看懂场景定制的组织逻辑优必选不自己建最牛的机器人它建的是能稳定跑起来的机器人。这背后需要的组织能力是深入理解制造业场景、与客户深度共创、快速响应的定制能力。
深度解读物理AI:人工智能的下一个主战场!
发布时间:2026/5/20 16:19:34
2026年5月14日美国Figure AI做了一场全程无剪辑直播——Figure 03人形机器人连续工作33小时分拣了超过4万件快递包裹。零人工干预完全自主跑完整个轮班。每秒处理0.37件效率是人工的1.8倍不规则包裹识别率99.7%。它自己换了电池自己做了诊断不需要人盯着。这不只是机器替人的新闻。这是人工智能正式从说话走向动手的标志性事件——整个行业正在发生一次根本性的范式迁移从语言智能到物理智能。这个新范式有一个名字物理AIPhysical AI。01什么是物理AI物理AI是让人工智能从屏幕里说话到在真实世界里干活的跨越。现在的AI——ChatGPT、DeepSeek、豆包——本质上都是在处理信息。它们能写文章、能做分析、能对话核心能力是对文本和图像的统计学习。你给它们一个指令它们返回一个答案仅此而已。但当你把同样一个问题交给一台机器人——把地上那个蓝色的箱子捡起来放到传送带上——AI大模型就抓瞎了。因为它需要理解物理世界的运作规律物体有多重地面摩擦力多大手臂该用多大的力这些信息文本里没有。物理AI解决的就是这个问题。它的核心是在真实物理环境中构建一个完整的闭环感知→决策→验证→执行→反馈。机器人在真实环境里看感知然后思考该怎么办决策在动手之前先用模拟器验证一遍验证然后真正执行动作执行最后把结果反馈回来优化下一轮决策反馈。整个过程像人一样——不是靠背程序而是靠真正理解物理世界。这就是物理AI和语言AI的根本区别语言AI改变的是信息流动的方式物理AI改变的是人与真实世界互动的方式。02核心技术让AI长出物理直觉物理AI能走到今天靠的是三个核心技术突破。第一代际VLA——让机器人长出眼睛和手VLAVision-Language-Action模型是物理AI的第一块基石。它的逻辑很直接给机器人装上眼睛Vision看环境装上大脑Language理解指令装上手和脚Action执行动作——三个模块统一建模端到端训练。这意味着机器人不需要被写好每一步的程序你告诉它把那个蓝色的零件放到传送带上它自己能理解、能规划、能执行。2023年VLA路线开始成熟。加州大学伯克利分校的π0模型是这个方向最早的代表作。中国也有公司同期开始自研VLA比行业巨头更早切入而且用更小的模型规模实现了接近的性能表现。但第一代VLA有一个根本局限它只能处理当下不能预测未来。你告诉机器人把快递分拣它能执行。但你问它如果这个包裹变形了怎么办它就不知道了。它缺乏对物理世界未来状态的理解能力。第二代际世界模型——让AI拥有想象力这就是世界模型World Model出现的意义。世界模型相当于给机器人装上了一个物理模拟器——它不只是看到当前环境还能预测环境接下来会怎么变化。举个例子你把一个篮球抛向空中没学过物理的人只知道球会落下来。学过物理的人能写出运动方程。而拥有世界模型的AI它在内部构建了一个完整的物理模拟器——它知道重力是9.8米/秒²知道空气阻力会随速度变化知道球的旋转会影响轨迹并且能在行动之前先在模拟器里推演一遍我这样抛球会落到哪里。这就是世界模型的核心价值从反应式执行变成预测式行动。谷歌的Genie系列模型是这个方向的代表。英伟达发布了Cosmos平台专门为机器人和自动驾驶生成高保真的合成数据——因为真实世界的物理数据太稀缺了而世界模型可以在虚拟环境里大规模生成训练数据。但第二代也有问题世界模型和VLA是分开的两个模块世界模型负责预测VLA负责执行。模块之间的信息传递存在延迟和损耗——就像人的大脑和手之间信号传递慢了半拍。第三代际融合——让预测和行动长在一起2026年真正决定性的突破出现了世界模型和VLA开始深度融合不是拼接是长在一起。智平方发布的Video2Act是这个方向的代表技术。它把世界模型直接嵌入VLA内部——模型在生成动作的同时就能结合对未来状态的隐式推演做出决策。简单说机器人在想怎么行动的同时已经在预演这个动作执行后的结果并且同步调整策略。整个过程是端到端的信息没有任何损耗。这不是简单的技术升级。这是物理AI的感知-预测-执行一体化是从能用到好用的临界跨越。032026年为什么是关键转折年三个信号说明物理AI的拐点已经来了。信号一真实场景的规模化验证Figure 03的33小时直播只是冰山一角。智平方的AlphaBot系列机器人已经在真实生产力场景中规模化部署——核心部件无故障运行时间达到2万到5万小时惠科1000台订单被摩根士丹利认定为全球生产力型机器人最大的单一订单。当机器人在真实工厂里跑起来并且能稳定地跑几千上万小时不出故障——这就是物理AI从Demo走向产品的标志。更有意思的是人类还没完全输。5月17日Figure AI又做了一场直播——1名人类实习生 VS 机器人团队10小时分拣包裹对决。结果人类分拣12924个机器人分拣12732个人类以192个的微弱优势赢了。但Figure AI创始人说了一句话这将是人类最后一次赢得比赛。这场人机对决的意义不在于谁赢谁输而在于机器人已经能和人类同台竞技了。下一次当机器人的效率再提升20%、30%——胜负的天平就会彻底倾斜。信号二技术路线收敛基础设施成熟2026年VLA世界模型融合成为行业主流方向。 英伟达Cosmos平台、谷歌Genie系列、阿里达摩院RynnBrain、蚂蚁灵波LingBot系列——全球科技巨头和中国的头部企业都在往同一个方向使劲让AI拥有对物理世界的理解、预测和操控能力。沙利文数据显示物理AI仿真及数据平台市场年复合增长率33.49%2034年规模将突破685亿美元。 这不是小打小闹这是一个正在快速形成的基础设施生态。信号三具身智能——人形机器人是物理AI的终极载体物理AI的进化和人形机器人的量产形成了相互加速的正循环。宇树科技出货5500台Figure拿到宝马5000台订单特斯拉Optimus在弗里蒙特工厂进行小批量测试——人形机器人从炫技走向变现。而人形机器人的规模化又给物理AI提供了最丰富的真实训练场景。Figure 03那场33小时的直播背后是Helix 02系统——其中System 0用超过1000小时的人类运动数据训练直接替代了109504行手工C代码实现真正的端到端感知-行动控制。机器人在工厂里干活干得越多数据越多AI越聪明机器人越能干。这是一个正向飞轮。04两种路线谁才是物理AI的终态全球物理AI的竞争目前形成了两条清晰的路。美国路线全栈定义技术制高点。英伟达从芯片到Cosmos平台到自动驾驶一整套技术栈全在自己手里。Figure AI专注具身智能用Helix系统证明端到端融合的可行性。谷歌的Genie系列、世界模型和机器人控制全链路布局。美国的逻辑是我定义标准我来搭平台我来定规则。中国路线场景牵引工程化落地。中国没有美国那样的芯片优势但有全球最丰富的制造业场景、最完整的产业链、最活跃的机器人应用市场。宇树科技用5500台出货量证明规模化制造能力优必选Walker S进了比亚迪、吉利、蔚来总装线智平方的Video2Act在同类产品中表现领先。中国的逻辑是我先跑通场景我先做到能用好用再慢慢往上游走。两条路线的底层驱动力不同但目标一致让AI真正进入物理世界成为改变生产方式的力量。如果把物理AI的产业化进程切开它正在经历三个阶段。第一阶段2024-2026技术验证与单点落地。Figure 03的33小时直播、智平方惠科千台订单、Figure宝马5000台合同——这些是本阶段的标志性事件。核心任务是证明机器人能在真实场景里稳定干活。第二阶段2027-2030工厂规模化与成本杀手入场。成本需要从目前的20-50万人民币降到10万以内才能触发制造业的大规模替代。一旦越过成本临界点人形机器人在制造业的渗透速度可能比当年新能源汽车还快。第三阶段2030走出工厂走进物理世界的每一个角落。建筑业、农业、物流、医疗——任何一个需要动手的场景都是物理AI的战场。长期市场规模预测是每年200万台出货3万亿美元以上。05 结语2026年物理AI的关键转折年。这不是人工智能发展的线性延伸而是从思考到行动的根本性跨越。Figure 03那场33小时的直播分拣了4万件包裹效率是人工的1.8倍——这只是开始。当这个效率变成5倍、10倍当成本降到10万以内当机器人在工厂里24小时不间断地跑——物理AI改变的不只是工厂里的流水线而是整个社会生产的基础逻辑。理解它现在正是时候。*部分图源网络侵联删走进具身智能真实场景看懂物理AI的底层逻辑走进宇树看懂开放生态的组织逻辑宇树的核心能力不是某一项技术而是一套快速迭代低成本制造的组织能力。它能把G1的价格压到亚$20,000靠的不是偷工减料是研发、生产、供应链的一体化效率。这种能力源于宇树在四足机器人领域多年积累的制造经验。走进优必选看懂场景定制的组织逻辑优必选不自己建最牛的机器人它建的是能稳定跑起来的机器人。这背后需要的组织能力是深入理解制造业场景、与客户深度共创、快速响应的定制能力。