当AI进入物理世界，具身模型如何重构生产力？

发布时间：2026/5/24 10:01:18

2026年5月14日百度AI开发者大会Create 2026・具身智能专题论坛在北京国家会议中心成功召开。来自北京大学、上海交大、星动纪元、智平方、英伟达等20具身智能行业技术先锋、企业创始人齐聚围绕具身模型、数据体系、场景落地、产业生态等核心议题共探泛化落地最优解。百度集团副总裁袁佛玉出席并发表致辞她指出全球AI产业重心正转向物理世界下一阶段核心探索方向是“让AI在物理世界安全、可靠、低成本行动”产业机遇也从软件延伸至制造、物流、交通等民生相关领域。袁佛玉强调具身智能并非单点技术突破而是涵盖模型、数据、本体、芯片、传感器、控制、安全及供应链的系统工程是一场“知行合一”的技术革命。百度智能云将从多方面持续投入第一是夯实AI Infra基础设施围绕VLA模型、世界模型的训练和推理性能做工程优化帮助企业把模型迭代速度提上去把试错成本降下来。第二是深化场景链接开放行业Know-how、客户资源与落地经验与具身企业共同发掘可规模化商业化场景。第三是推动行业标准建设百度智能云荣幸成为工信部人形机器人与具身智能标准化技术委员会唯一入选云厂商将积极参与技术体系标准化建设工作降低产业协同成本提升市场信任。陈建宇全栈系统驱动人形机器人规模化落地星动纪元CEO、创始人陈建宇在主题分享中指出人形机器人从“可用”迈向“可规模”单点技术突破远远不够必须构建AI Native全栈系统覆盖数据、大脑、本体、应用四层闭环体系。他明确场景价值、产品市场匹配PMF、稳定交付能力、可控成本是规模化落地的四大核心前提模型能力决定机器人性能上限本体与工程能力决定实际落地下限。在数据层面星动纪元构建五级数据金字塔从低到高依次为互联网数据、EgoCentric第一人称数据、物理世界生成数据、遥操数据、真机数据。陈建宇特别指出长尾故障数据价值远超常规成功数据而真实场景闭环产生的真机数据是支撑模型持续迭代、本体不断优化的最高质量数据源。在技术核心层面陈建宇提出两大关键判断大脑端传统VLA模型存在天然泛化边界世界模型是突破泛化上限的核心核心价值是学习物理世界统一规律而非简单模仿单一动作本体端星动纪元坚持核心硬件全栈自研、模块化产品设计重点突破五指灵巧手技术让硬件深度适配模型需求为规模化落地筑牢硬件根基。张鹏VLA范式持续进化类脑融合赋能通用智能智平方合伙人、副总裁张鹏认为VLA视觉-语言-行为并非具身智能的终点而是连接数字世界与物理世界的核心航道其范式正持续迭代、能力不断增强。他指出VLA本质是语言、视觉、行为三要素的端到端对齐未来智平方将持续融合世界模型、类脑计算、神经形态技术逐步从专用场景适配走向通用场景覆盖推动机器人成为第四代智能终端。智平方自研NeuroVLA模型创新性地将类脑计算与VLA深度融合打破传统VLA响应延迟高、推理能力弱的瓶颈。该模型可实现毫秒级实时响应、强逻辑推理能力适配物理世界动态、复杂、不确定的交互需求为机器人在工业、公共服务等半结构化场景商业化落地提供核心技术支撑。张鹏同时宣布智平方联合百度智能云开源AlphaBrain Platform开放自研VLA模型、测评工具、数据服务及场景化工具链。平台旨在降低行业研发门槛将少数团队掌握的复杂系统能力转化为行业共有资源。他强调具身智能落地离不开AI、硬件、场景三大要素的深度融合只有构建完整商业闭环与数据闭环才能实现行业可持续发展。熊蓉SPIRE知行融贯大小脑分层攻克高精度难题浙江大学求是特聘教授、浙江人形机器人创新中心首席科学家熊蓉提出SPIRE知行融贯发育体系创新构建“大脑小脑”分层架构精准破解当前VLM视觉语言模型识别不准、物理交互薄弱、算力依赖高、跨场景泛化不足四大行业痛点。大脑聚焦高维认知、空间关系推理、任务失败反思小脑负责实时感知、精准动作执行、零样本泛化适配二者协同实现端到端智能闭环。熊蓉强调力、触、重量、摩擦力等物理信息无法通过视觉感知替代必须纳入模型训练核心环节。团队通过高保真环境重构、人-机操作数据迁移、分层强化学习、紧凑拓扑感知等技术让机器人实现亚毫米级操作精度同时大幅降低算力依赖。熊蓉介绍SPIRE体系已完成多场景规模化落地验证工业场景中攻克柔性布料高精度操作难题与杰克科技已签订2000台订单成为全球服装业首个批量化落地项目家庭场景中联合方太发布全球首个机器人总厨实现烹饪辅助康养场景中完成语音交互下的喂饭、喂水、陪护等服务。她表示后续将持续优化模型泛化性、降低硬件成本推动具身智能从工业向家庭、康养等更多民生场景渗透。应茹百度百舸AI Infra全栈支撑适配三大研发范式百度智能云主任架构师应茹表示百度百舸已从服务通用大模型的基础设施全面升级为具身智能专属全栈AI Infra覆盖数据准备、分布式训练、仿真评测、推理加速、真机部署全链路精准适配当前行业三大主流研发范式操作类VLA模型、世界模型、运动控制策略。应茹指出2026年具身智能行业呈现两大核心技术趋势一是世界模型分布式训练进入爆发期行业探索多种VLA与世界模型融合架构二是运动控制策略从独立分散走向统一范式从小规模训练向大规模Scaling演进。百舸针对性优化核心技术提供5B–20B中型模型并行训练高性价比算力配置解决世界模型Diffusion结构推理延迟瓶颈优化运动控制策略多机训练的通信与显存占用、并支持一键扩展至128卡集群。应茹介绍百度百舸已深度服务行业累计支撑30余家具身企业完成模型研发、迭代与真机落地。平台预置双臂真机数据集、主流仿真环境、开源强化学习框架集成英伟达Isaac生态、SONIC全身控制底座、GR00T N系列VLA模型提供开箱即用的研发环境大幅降低企业研发门槛、缩短迭代周期、降低试错成本。陈博远世界模型核心在Action因果建模决定物理理解逆矩阵科技创始人兼首席研发官陈博远从认知科学与人工智能双重视角溯源解读世界模型。他指出世界模型的核心价值不在于生成逼真视频画面而在于搭建物理世界的因果推理体系动作正是建立因果关联、解构物理规律的关键核心。在他看来物理规律蕴藏于物体动态交互过程而非静态像素画面人工智能想要真正理解现实世界不能只依靠被动观察更要通过主动行动感知推演。逆矩阵首创世界模型W0至W5分级理论清晰界定行业演进层级W0为单纯追求视觉流畅度的视频生成阶段W5则是能够吃透物理规律、自主完成复杂任务的真实世界通用推理阶段。陈博远指出类比自动驾驶从L0到L5的演进世界模型存在W0至W5的演化进程W0为单纯追求视觉流畅度的视频生成阶段W5则是AI自主探索发现新物理规律、自主完成复杂任务的真实世界通用推理阶段。陈博远认为通用世界基座模型是各垂直场景规模化落地的核心基础。工业仿真、具身智能、游戏创作等领域遵循同一套物理规则真实采样成本极高则是它们共同的产业痛点。各类真机数据与仿真数据可跨场景互补赋能、交叉训练沉淀出对物理世界的通用认知物理规律的通用性向上输出、垂直场景反哺物理深度向下沉淀构成了世界基座模型的双向飞轮。戴亚奇构建全模态表征真实世界RL催生ChatGPT时刻日冕机器人联合创始人戴亚奇以ChatGPT的发展路径为类比提出具身世界模型的Scaling飞轮表征、数据、训练范式三者相互驱动、形成闭环是实现技术跃迁、迎来行业ChatGPT时刻的关键。日冕机器人认为表征是探索具身世界模型Scaling飞轮的第一步工作。行业从VLA到WAM其背后本质是尝试从“表征动作”到“表征世界”。当前主流的VLA模型已经能够通过将动作对齐到视觉语言空间来完成机器人动作生成而为了应对真实世界天然的接触复杂性、任务多样性和长时因果关系具身智能需要原生的“Token”级别表征体系创新。在模型体系上日冕机器人将世界模型的泛化性优势融入真机世界强化学习Real-World RL提出了世界模型奖励系统World Model Reward System的方案。日冕的WMRS方案通过“泛化的策略模型尝试任务、泛化的监督模型评价纠错”的闭环机制一方面大幅降低了此前具身强化学习对现场部署训练和人在环Human in the loop的依赖另一方面也大幅降低了在产品部署过程中具身强化学习带来的回退风险进而为大规模商业化后的交付闭环系统做好准备。场景选择方面日冕机器人将高速增长的AI基础设施制造业作为当前重点突破方向之一。该行业具备“多批量快迭代、精细操作丰富、扩产需求旺盛”三大特征为日冕上述提出的世界模型范式和系统进入真实工业场景提供了高质量的验证土壤和量产基础深度契合了日冕“在高速发展的产业中与人类协作、在精细交互的场景中突破人类极限”的目标。最后戴亚奇强调了“具身智能不是单打独斗的行业”日冕一方面将在后续持续开源全模态表征工具和多场景全模态精细操作数据集另一方面也期待联合行业伙伴共建数据和硬件生态持续探索更多的优质场景和重要产业方共同加速具身智能ChatGPT时刻的到来。王宇杰Compute is DataCosmos世界模型赋能物理AI英伟达解决方案架构师王宇杰围绕GTC 2026的“Compute is Data”核心表述展开分享指出面向Physical AI行业正从“计算资源处理数据”走向“以高性能计算驱动高质量数据生产”的新范式。NVIDIA的Physical AI Data Factory Blueprint旨在统一并自动化训练数据的生成、增广与评估流程帮助开发者将有限数据扩展为大规模、多样化的数据集。王宇杰介绍Cosmos在Physical AI开发中可用于合成数据生成、视觉推理和动作仿真以加速通用机器人智能在复杂环境中的开发与验证。王宇杰表示NVIDIA已围绕具身智能构建较为完整的产品栈包括Isaac Sim、Isaac Lab、Newton、Cosmos、Isaac GR00T N系列模型、Jetson Thor以及用于机器人评测的Isaac Lab-Arena覆盖从仿真、训练、评测到部署的关键环节。目前Isaac Sim/Lab和GR00T模型已在百度智能云上线助力企业快速构建物理AI能力、加速机器人落地应用。任容玮开源生态持续扩容北京人形×百度智能云共启具身智能黑客松北京人形机器人创新中心知产与科研合作部负责人任容玮发表主题分享系统介绍中心在开源开放领域的布局成果。作为具身智能领域的国家队北京人形持续推动技术普惠已开放天工1.0通用人形机器人硬件设计、RoboMIND多模态数据集累计40万条下载量600W、运动控制框架TienKung-LabVLA模型及世界模型等核心资产构建起覆盖硬件、数据、模型、平台等全链路开源生态。任容玮重点发布最新技术成果包括基于通用具身智能平台“慧思开物”的低代码开发平台、行业领先的VLA仿真平台大幅降低开发者使用门槛助力快速实现技术验证与场景落地。依托上万平方米中试基地中心为行业提供标准测试、快速试错及规模化验证服务加速具身智能技术从实验室走向产业应用。本次具身智能专场论坛上北京人形机器人创新中心联合百度智能云正式开启首届具身智能黑客松大赛。赛事聚焦行业核心技术难点设立运动控制、VLA模型微调两大赛道面向企业、高校、科研团队及开发者全面开放报名。赛事周期从5月延续至9月整体分为启动发布、线上初赛、线下决赛、成果推广四个阶段。主办方将开放天工系列机器人硬件、RoboMIND开源数据集、XR-1仿真平台与百度百舸算力资源为参赛团队提供全链路技术支持。大赛评审阵容由北京人形机器人创新中心、百度智能云及清华、北大、浙大等高校专家共同组成同时配套设置奖金、硬件资源和生态扶持等多项奖励。活动以赛促研、以赛促产打通技术研发与真实应用场景的壁垒推动具身智能走出实验室、实现规模化落地持续带动整个产业生态加速成长。汇聚行业智慧共话具身智能技术瓶颈与落地之道本次论坛压轴圆桌以“The Hard Part”为主题集结学界专家与企业创始人、高管围绕技术路线、落地瓶颈、硬件形态收敛、人才培养、场景突破等核心议题展开深度交流碰撞观点、凝聚产业共识。上海交通大学助理教授穆尧、大晓机器人副总裁周泉、微分智飞首席科学家周鑫、四川具身科技CEO冯振宇、深朴智能联合创始人兼副总裁张迪、欧拉万象COO张靖、萝博派对CEO黄一、智域基石CEO杨哲轩共同参与本场圆桌对话。穆尧从学术视角分析具身智能已走完从0到1的原始突破正迈入从1到100的规模化发展周期整体行业发展势头向好。他提到世界模型与VLA并非相互割裂JAPA与PIXEL两条技术路线可以融合互补后续会逐步演进为可插拔的统一技术范式。面对少样本迁移难题可通过云端通用推理搭配轻量级动作模型、依托智能体自动化采集数据两条路径减少行业对真机实测数据的依赖。周泉判断2026年将迎来行业格局剧变技术路线从多元分散走向逐步收敛应用场景也从零散试点转向规模化落地搭建完整数据闭环是驱动技术持续迭代的核心。他表示零样本迁移是商业化落地的重要抓手但长程任务仍存在泛化能力不足的问题借助世界模型强化预测能力才能让技术更好适配实际应用场景。周鑫聚焦任务边界与数据闭环两大核心明确清晰的任务界定、轻量化评测体系是搭建数据闭环、支撑技术规模化发展的基础。在他看来各类技术路线的差异本质源于任务颗粒度不同精细操作类场景需要高颗粒度世界模型支撑飞行等粗粒度任务则可依靠底层表征完成推演行业需根据不同场景匹配适配的技术方案。冯振宇认为情感共生已成为行业普遍共识人形机器人的终极落点面向消费端。产品除了替代人力完成基础体力工作更要承载情感陪伴的核心价值。他坚持硬件形态终将收敛到仿人构型非仿人形态很难形成真正的通用智能而真机实测数据是模型迭代的核心根基可依托省级实训基地持续沉淀夯实数据储备。张迪表示行业正处在技术迭代攻坚阶段尚未形成统一发展路径但业内已形成共识首要解决泛化能力弱、优质数据稀缺、物理世界理解不足等行业痛点。商业化落地遵循循序渐进节奏先从类家庭周边场景切入逐步积累数据、打磨技术能力再向完整家庭场景渗透通过快速试错实现持续迭代升级。张靖将真实落地、持续迭代视作行业发展核心关键词把2026年定义为具身智能落地元年。他主张从开发者生态场景切入打造具备成长进化能力的机器人产品不必一味追求一步到位的完美形态。家庭场景优先守住安全底线对高频日常任务进行渐进式优化依托用户反馈形成正向循环带动技术与产品同步成长。黄一强调规模化发展与基础设施建设相辅相成当前行业正同步推进规模扩张与底层基建完善。硬件形态会逐步向人体构型靠拢轮式底盘则更适配工业专属场景开源本体搭配小脑系统与底层基建能够有效降低行业准入门槛、培育专业人才同时行业应坚持先打磨至顶尖水准再进行开源共享。杨哲轩指出具身智能本质是复杂系统工程绝非单一模型可以定义物理场景容不下算法幻觉全链路协同配合才是发展关键。他提出数据加工的重要性远超原始采集高质量的数据编译是模型训练输入的核心以第一视角数据可降低采集成本跨本体通用训练则能提升模型泛化表现为行业长期发展筑牢数据根基。与创新者同行具身智能用百度智能云从模型迭代、数据创新到硬件自研、场景落地全产业链协同节奏持续加快具身智能正加快走出实验室走进真实应用场景迈入规模化落地新阶段。目前百度智能云已经支持包括北京、上海、浙江、四川创新中心在内的具身智能“国家队”也在为星海图、智元机器人等产业链上超过30家重点企业提供全栈AI云技术支撑助力更多产业创新者抢占主动、赢得先机。未来百度智能云将持续联合行业伙伴深耕核心技术、赋能产业发展携手推进具身智能创新演进助力国内AI产业提质升级以科技实力赋能实体经济共建全新智能产业生态。百度智能云走进文博会四方战略合作开启AIIP新叙事点击“阅读原文”立即合作咨询

思源宋体CN实战指南：7种字重如何提升你的设计效率

思源宋体CN实战指南：7种字重如何提升你的设计效率【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还在为商业项目中文字体授权问题而犹豫？思源宋体CN作为Adobe与…

2026/5/24 10:01:18 阅读更多

用直接输入的方式创建矩阵

矩阵是一个由m行n列数据组成的数据集合。某矩阵A的第i行第j列，称为矩阵A的（i,j）元素。元素是实数的矩阵称为实矩阵，元素是复数的矩阵称为复矩阵，行数与列数相等的矩阵，如都为n，可称为n阶矩阵或n…

2026/5/24 10:00:37 阅读更多

光栅图像的核心特性：揭秘那个“放大就糊“的视觉之谜

一、一个让我"开窍"的乐高积木故事我有个朋友是乐高玩家，他给我讲过一个让我至今难忘的故事。他说他用乐高拼了一幅蒙娜丽莎的画像——用几千块标准乐高颗粒，按特定的颜色和位置摆放，远远看去真的有蒙娜丽莎那神秘微笑的轮廓。他…

2026/5/24 10:00:17 阅读更多

SSH Host key verification failed 原因与安全处理指南

1. 这个报错不是故障，而是SSH在认真履职“Host key verification failed”——第一次看到这个提示时，我正远程部署一个客户服务器，敲完ssh user192.168.3.45回车，终端突然卡住两秒，然后跳出这行红字，后面还…

2026/5/25 2:17:35 阅读更多

Netcat (nc) 全面使用指南

Netcat 被誉为网络工具中的"瑞士军刀"，是一个功能强大的网络调试和诊断工具。它可以在 TCP/UDP 协议下进行连接、监听、端口扫描、文件传输和代理转发等操作。一、安装与基本语法 1.1 安装方法操作系统安装命令Ubuntu/Debiansudo apt install netcat…

2026/5/25 2:17:15 阅读更多

ARM SVE2指令集与USUBWB指令优化实践

1. ARM SVE2指令集概述在当今计算密集型应用领域，向量处理能力已成为衡量处理器性能的关键指标。ARM架构的Scalable Vector Extension 2（SVE2）作为第二代可扩展向量指令集，在2021年随ARMv9架构一同发布，为高性能计算领…

2026/5/25 2:15:01 阅读更多

ARM ETE跟踪单元与单次比较器控制技术解析

1. ARM ETE跟踪单元的核心机制解析在嵌入式系统调试领域，ARM的嵌入式跟踪扩展(Embedded Trace Extension, ETE)提供了一套完整的指令执行流监控方案。其核心组件跟踪单元(Trace Unit)通过地址比较器(Address Comparator)实现细粒度的执行监控，能够捕获特…

2026/5/25 2:14:40 阅读更多

Django 从 0 到 1 打造完整电商平台:商品详情页与图片展示

IT策士 10余年一线大厂经验，专注 IT 思维、架构、职场进阶。我会在公众号、今日头条持续发布最新文章，助你少走弯路。上一篇我们实现了商品列表页，用户可以浏览分类、翻页查看商品卡片，电商的“门面”已经立起来了。但进入商品详情…

2026/5/25 2:13:19 阅读更多

GitHub开源项目日报 · 2026年5月23日 · AI编程工具与代码图谱的新机遇

本期榜单主要涵盖AI辅助编程、代码分析、知识管理和企业应用等多个领域，整体呈现出AI编程工具快速发展的态势。超过10000星以上的项目包括秘密知识手册、yt-dlp、Karpathy LLM编程指南、chrome-devtools-mcp、Odoo等多个方向，分别涉及技术资源整理、音视频下载、AI编程规范、…

2026/5/25 2:12:59 阅读更多

Go语言SQLite轻量级数据库应用

Go语言SQLite轻量级数据库应用引言 SQLite是一款轻量级的嵌入式数据库，无需独立服务进程，非常适合单机应用、移动端应用和开发测试环境。Go语言通过database/sql包配合go-sqlite3驱动可以方便地操作SQLite数据库。本文将深入探讨Go语言中SQLite的使用技…

2026/5/25 0:01:30 阅读更多

【前端无障碍】屏幕阅读器兼容性：确保视障用户的良好体验

【前端无障碍】屏幕阅读器兼容性：确保视障用户的良好体验前言大家好，我是cannonmonster01！今天咱们来聊聊屏幕阅读器兼容性这个话题。想象一下，一个视障用户打开你的网站，通过屏幕阅读器来浏览内容。如果你的网站没有…

2026/5/25 0:02:31 阅读更多

2026年横评10款降AI率软件:只选真正管用的那一款！

随着AI写作工具的广泛应用，论文写作和内容创作效率得到了显著提升，许多学生和职场人士都开始依赖这些工具来完成繁重的文字任务。然而，随着各大高校、期刊平台对AIGC内容检测技术的不断升级，AI生成内容的痕迹越来越容易被识别。不…

2026/5/25 0:04:13 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/25 1:05:07 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/25 1:05:13 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/25 1:05:14 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/24 15:30:50 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/24 15:03:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/24 9:50:45 阅读更多

相关文章