先说一件最近AI圈里有点反常的事。LeCun从Meta辞职在巴黎创立AMI Labs种子轮融了10.3亿美元估值35亿成为欧洲历史上最大的种子轮。投资方名单里有NVIDIA、三星、贝佐斯本人。李飞飞的World Labs拿到数亿美金。DeepMind的Hassabis也在同一个方向持续押注。这三个人是过去二十年AI领域最重要的几张名片。他们不约而同转向的这条赛道叫世界模型。反常的地方在于这个方向和当下硅谷主流的LLM路线在底层逻辑上是对立的。LeCun自己说得很直白——别人融十亿是为了买卡训LLM他们融十亿是为了证明大家训LLM训错了方向。这篇文章想做一件事把世界模型从底层讲清楚。它是什么、为什么现在火、五条技术路线各有什么算盘以及这场押注背后真正的分歧在哪里。一、一个字的距离一个世界的差距要理解世界模型先得搞清楚它和LLM到底在解决什么不同的问题。LLM回答的是世界是什么样的。世界模型回答的是我这样做之后世界会变成什么样。听起来只差了一句话但这是旁观者和参与者的本质差异。你问ChatGPT玻璃杯从桌上掉下去会怎样它能回答你因为它见过足够多描述这件事的文字。这是语言层面的知识检索。但如果你是一台机器人要伸手去接这个杯子你需要的不是描述而是实时预测这一刻我的手在哪里杯子的下落速度是多少如果我这样移动手臂0.3秒后接触点会在哪里力度应该多大。语言模型给不了这个。不是因为它不够聪明而是因为它根本没有在解这道题。这就是两种智能的分水岭一种擅长描述一种负责预测。前者是旁观者后者是参与者。机器人、自动驾驶、具身智能需要的是后者。二、大脑里一直有一台预测机器世界模型这个思路比LLM早了几十年。1943年英国心理学家Kenneth Craik在一篇论文里写道大脑里维护着一个现实的小尺度模型行动前先在脑子里跑一遍。这是这个想法最早的文字记录。神经科学在1990年代给了它更扎实的支撑叫预测编码。视觉皮层不会把眼睛接收到的每个像素老实传上去——那太耗能了。大脑高层持续向低层下发预测低层只需要把预测与真实感官之间的误差往上汇报。你走进熟悉的办公室大脑几乎不消耗额外资源因为一切都在预期之内。但如果同事的椅子换了个位置那个错位信号会立刻引起你的注意。大脑处理的不是世界本身而是世界和预期之间的差值。控制工程领域在1960年代独立发现了同一条原理用更工程化的语言表述叫内模原理要实现对某个系统的完美控制控制器内部必须包含该系统的一个模型。用更直白的话说想控制某件事先得在脑子里装着它的运行规律。这条原理贯穿了机器人、航天器、自动驾驶几十年的工程实践。卡尔曼滤波器在1960年代帮助阿波罗导航系统实时预测飞船位置——它不等传感器读数而是先用内部模型猜飞船下一秒在哪再用真实测量值校正误差。这套思路后来出现在语音识别、天气预报、工业机器人里只是换了一套数学外衣。从Craik到预测编码到内模原理三条线指向同一个结论理解世界的最高效方式是在脑子里维护一个可以持续预测的模型而不是被动接收信息。AI世界模型就是把这个想法推向极致的工程尝试。三、它到底能做什么世界模型有三个核心价值。第一个最直觉后两个才是工业界真正在意的也是最容易被忽视的。︱第一在脑子里练一万遍。传统强化学习需要智能体和真实环境反复交互可能要跑几百万次才能学会一个简单任务。每一次交互都是真实时间和真实资源在机器人领域还意味着真实损耗。有了世界模型智能体可以在内部虚拟环境里先跑几万遍。出了问题重置再来。没有物理代价。DeepMind的Dreamer V3在只允许10万步真实交互的基准测试里就超过了人类水平背后靠的正是这个机制。︱第二行动之前先算好。有了世界模型智能体可以在真正动手之前先在脑子里把几条路都走一遍选预期结果最好的那条。DeepMind的MuZero就是这样在没有被告知任何游戏规则的情况下自己摸索出了一套内部动态模型然后凭这套模型同时掌握了国际象棋、围棋和一堆Atari游戏的策略。规则不重要重要的是它自己学会了预测下一步会发生什么。︱第三这是工业界最在意的——安全。机器人、自动驾驶、工业控制这些场景里试错的代价可能是灾难性的。你没办法为了训练模型真的让车在路上撞几千次。世界模型的解法是生成合成数据。给定真实路测片段自动生成同一路口、不同天气、不同行人行为、不同光线的变体把那些极端危险的场景反复演练。NVIDIA的Cosmos系列已经在这个方向上做出了工业级产品——它可以生成罕见或危险场景那些在现实中难以反复采集甚至根本不能让它发生的情况。这种能力是纯真实数据采集永远无法覆盖的。四、80年四个时代︱第一个时代1950年到2017年理论散落各处。七十年里研究者在控制论、语音识别、机器人学的不同角落各自构建预测未来状态的工具从未被统一命名。RNN、卡尔曼滤波器、隐马尔可夫模型……它们解决的是同一类问题但没有人把它们放在同一张图里看。︱第二个时代2018年“在梦里学开车”。David Ha和Jürgen Schmidhuber发表《World Models》第一次把散落的工具组合成可以端到端训练的框架。核心思路是三个模块视觉编码器把画面压缩成低维向量记忆模块预测下一帧的分布控制器把当前状态映射成动作。最令人着迷的是他们的实验把控制器放进模型幻想出的虚拟环境里训练然后把策略迁移到真实游戏。在梦里学会开车醒来就能上路——这个比喻让世界模型第一次走进大众视野。但实验也暴露了一个核心问题智能体学会了利用世界模型的错误来制造虚假高分。在梦境里作弊而不是真正学到技能。这在强化学习里有个专门术语叫reward hacking——模型没学会开车先学会了应付考核。这个问题后来成为整个领域持续攻克的挑战。︱第三个时代2019到2022年潜在空间革命。Dreamer系列的出现彻底改变了世界模型的架构逻辑。核心改变只有一个不再在像素空间里做任何事。一帧64×64的游戏画面有12288个像素值里面大量是光照、纹理、背景噪点这些无关细节。与其预测这12288个数字不如把它压缩成一个只有几十维的向量只保留这里有个平台、那里有个敌人这类结构性信息。所有预测、规划、策略学习全部在这个压缩后的低维空间里完成。速度快了效果反而更好。Dreamer V3用同一套参数横跨Atari、Minecraft、机器人控制等超过150个任务每个领域都拿到了有竞争力的结果。这在此之前从未实现过。︱第四个时代2023年至今视频即世界。两条路线开始汇聚能不能用视频本身来学习物理规律LeCun团队走了一条另类的路抛弃像素重建只在语义空间里预测。我不需要画出你的脸我只需要知道你是谁。这就是JEPA的基本逻辑——不生成只理解。与此同时NVIDIA的Cosmos 3把语言、图像、视频、音频和动作统一到单一架构中试图让模型不只能生成逼真视频还能真正理解其中的物理规律并以此指导机器人行动。这两条路线指向同一个问题但给出了截然不同的答案一个说生成是幻觉理解才是本质另一个说生成本身就是理解的一种形式。这场争论现在还没有结果。五、为什么偏偏是现在Dreamer V1是2019年的视频生成2023年就起步了。为什么偏偏2024、2025才成了每个AI会议的主角不是某个单点突破而是三条线刚好同时成熟撞在了一起。︱第一条视频生成逼出了更深的追问。当视频生成质量提升到一定程度一个尴尬的问题浮出水面生成质量高不等于物理理解深。Sora可以生成极其逼真的水流画面但生成的水有时会穿墙而过。像素上的成功和物理上的理解是两件事这个矛盾把视频生成领域和机器人领域拉到了同一张讨论桌前。︱第二条机器人遭遇了数据天花板。通用机器人训练需要大量遥操作数据采集成本极高而且长尾覆盖永远不够。2025年出现了一种清晰的绕路方案先在互联网规模的视频上预训练学到丰富的物理表征再加入少量交互数据把表征转化为可控的世界模型。Meta的V-JEPA 2就是这个思路的代表——用超过100万小时的互联网视频预训练再用不到62小时的机器人数据后训练最终实现了在全新环境下的零样本抓取能力。62小时换零样本泛化这个数字值得停下来想一想。︱第三条自动驾驶跑通了商业逻辑。用世界模型生成罕见危险场景的合成数据比单纯累积路测里程效率更高——这条路的商业逻辑已经有公司在工业级别验证了。国内初创公司极佳视界发布的DriveDreamer系列已经签约多家头部主机厂。当资本能看到钱从哪里来蜂拥而至就只是时间问题。上一次世界模型热是2018到2020年学术界主导在游戏里证明可行性落地遥遥无期。这一次工业界和学术界同时入场因为它触碰到了真实的成本瓶颈和安全需求。这是性质不同的热度。六、五条路各有各的算盘2023年之后世界模型分化出五条主要路线。每条路线面对的核心权衡不一样选哪条取决于你的任务对哪个瓶颈更敏感。︱RSSM/Dreamer在压缩后的潜在空间里做规划追求样本效率擅长用少量真实交互学到足够好的策略。代价是对长程复杂任务的建模能力有限。︱Transformer路线STORM把视频帧当句子处理每帧压缩成一个离散token借GPT处理文字的方式来预测下一帧。单块RTX 3090训练4小时就能在Atari 100k上超过人类水平。代价是离散化会损失细粒度的连续动态信息。︱扩散模型路线Diamond不做离散压缩直接用扩散模型逐步去噪出下一帧。视觉质量是五种架构里最高的在Atari 100k上以146%平均人类标准化分数超越所有竞争方法。代价是每帧生成需要多次神经网络前向传播计算开销比STORM高出将近一个数量级而且生成过程不可微难以直接对接策略优化。︱JEPA路线V-JEPA 2最另类的一个。根本不生成图像只在语义空间里预测状态变迁。用超过100万小时互联网视频预训练用不到62小时机器人视频后训练实现零样本机器人控制。优势是对物理世界的结构性理解直接建模这个物体在哪里、手是否握住了它完全不关心光照和纹理。代价是可解释性差中间表征难以直观检验。︱具身世界模型DreamDojo、Cosmos面对最现实的问题——机器人操作数据贵到离谱。NVIDIA Cosmos 3在包括近10亿张图像、4亿段视频、人类与机器人动作数据在内的20万亿token多模态数据上完成训练。DreamDojo则专注从人类日常操作视频里提炼物理交互规律在640×480分辨率下达到10.81 FPS的推理速度满足实时控制要求并展现出跨环境零样本泛化能力。没有一条路通吃所有场景。这五条路线在同时演进也在互相借鉴。七、三种声音三种押注五条路线每条都有人在押注。但所有论文都没有正面回答一个更根本的问题世界模型真的是正确的方向吗围绕这个问题AI领域有三种截然不同的声音。︱第一种这是唯一正确的路。这是LeCun的立场也是他用职业生涯最后一段黄金时间下注的判断。2025年11月他离开了担任了十二年首席AI科学家的Meta原因是在架构方向上和公司产生了根本分歧。Meta在大规模押注LLMLeCun认为这是走错了路。AMI Labs的种子轮背后站着NVIDIA、三星、贝佐斯。谢赛宁的比喻流传很广“语言是一剂鸦片。它有用但它是捷径。如果你一直靠拐杖走路你就没办法训练大腿的肌肉。”LeCun的论证更系统LLM处理的是人类发明的符号系统是对世界的二次抽象。文字是人类用来描述世界的工具而不是世界本身。真正的智能需要直接从连续的感官信号中建模物理世界学会因果结构而不是学会统计关联。2026年5月底他的研究组发布了两篇理论预印本从数学上证明了JEPA架构在何种条件下能够恢复真实世界的结构同时配套基准测试指出当前模型在轻微视觉扰动下会出现崩溃。这是AMI Labs成立以来最重要的研究产出——他们不只是在讲故事而是开始给世界模型更可靠这个论断找理论地基。他们的赌注是五年后今天LLM主导的格局会被证明是一段弯路。︱第二种LLM加多模态融合就够了。这是DeepMind的路线。Hassabis的判断是Gemini的演进方向就是成为世界模型但实现方式是在大型多模态LLM上叠加具身推理能力而不是推倒重建。逻辑是LLM已经积累了人类几千年书写知识的压缩表示在这个基础上叠加视觉、空间感知和强化学习比从头建一套新架构更务实。LLM在常识推理、语言指令理解、跨任务泛化上已经足够强而这些恰恰是纯RSSM/JEPA架构最弱的地方。与其放弃已有的优势不如在它上面叠加缺失的能力。这条路线的批评者有具体的反驳LLM学到的是统计关联不是因果结构。它能告诉你玻璃杯掉下来会碎但不知道为什么碎、碎成几片、碎片弹到哪里。这种知道结果但不懂机制的理解方式在语言任务里够用在机器人操作里会踩中最难的那块——你需要的不是常识是精确的物理预测。一个已经反复被验证的经验是堆更多数据、堆更多参数往往能覆盖掉架构设计上的不足。DeepMind在赌的是这个经验在具身智能领域同样成立。︱第三种方向也许对但时机还没到。这是目前最少被公开讨论、在业界却私下流传最广的一种判断。核心是一个数据密度问题。语言的每个token携带极高的语义密度一句话就能传达完整的命题。视觉信号截然不同一帧1080p视频包含约600万像素但其中承载的命题性信息压缩成文字不过几十个词。同等数据量视觉信号能传达的语义量远小于文字。这意味着要训练出能力对标当前LLM的世界模型所需的数据量和算力可能比LLM高出好几个数量级——而产出的能力可能还不如早期的BERT。更深的问题是我们甚至还没想清楚世界模型的涌现需要什么样的目标函数。LLM的成功在于next-token prediction这个目标函数本身就足够强大。世界模型需要一个类似的、同样简洁有力的训练目标而现在还没有人找到它。历史教训不是没有。NLP领域几十年的语法树、词性标注研究LLM出来之后几乎整个作废。脉冲神经网络研究了将近半个世纪Transformer出来之后在几乎所有基准上被直接越过连追赶的机会都没有。这些失败者不是方向错了是被规模定律碾压了——他们选了正确的问题但可能选了错误的时机。这种观点并不是在否定世界模型而是在追问在视觉数据密度问题、训练目标函数问题都还没有根本突破之前这一波大规模押注真的到时候了吗说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】
世界模型:一文讲清楚AI下一个十年的核心战场
发布时间:2026/6/9 21:43:37
先说一件最近AI圈里有点反常的事。LeCun从Meta辞职在巴黎创立AMI Labs种子轮融了10.3亿美元估值35亿成为欧洲历史上最大的种子轮。投资方名单里有NVIDIA、三星、贝佐斯本人。李飞飞的World Labs拿到数亿美金。DeepMind的Hassabis也在同一个方向持续押注。这三个人是过去二十年AI领域最重要的几张名片。他们不约而同转向的这条赛道叫世界模型。反常的地方在于这个方向和当下硅谷主流的LLM路线在底层逻辑上是对立的。LeCun自己说得很直白——别人融十亿是为了买卡训LLM他们融十亿是为了证明大家训LLM训错了方向。这篇文章想做一件事把世界模型从底层讲清楚。它是什么、为什么现在火、五条技术路线各有什么算盘以及这场押注背后真正的分歧在哪里。一、一个字的距离一个世界的差距要理解世界模型先得搞清楚它和LLM到底在解决什么不同的问题。LLM回答的是世界是什么样的。世界模型回答的是我这样做之后世界会变成什么样。听起来只差了一句话但这是旁观者和参与者的本质差异。你问ChatGPT玻璃杯从桌上掉下去会怎样它能回答你因为它见过足够多描述这件事的文字。这是语言层面的知识检索。但如果你是一台机器人要伸手去接这个杯子你需要的不是描述而是实时预测这一刻我的手在哪里杯子的下落速度是多少如果我这样移动手臂0.3秒后接触点会在哪里力度应该多大。语言模型给不了这个。不是因为它不够聪明而是因为它根本没有在解这道题。这就是两种智能的分水岭一种擅长描述一种负责预测。前者是旁观者后者是参与者。机器人、自动驾驶、具身智能需要的是后者。二、大脑里一直有一台预测机器世界模型这个思路比LLM早了几十年。1943年英国心理学家Kenneth Craik在一篇论文里写道大脑里维护着一个现实的小尺度模型行动前先在脑子里跑一遍。这是这个想法最早的文字记录。神经科学在1990年代给了它更扎实的支撑叫预测编码。视觉皮层不会把眼睛接收到的每个像素老实传上去——那太耗能了。大脑高层持续向低层下发预测低层只需要把预测与真实感官之间的误差往上汇报。你走进熟悉的办公室大脑几乎不消耗额外资源因为一切都在预期之内。但如果同事的椅子换了个位置那个错位信号会立刻引起你的注意。大脑处理的不是世界本身而是世界和预期之间的差值。控制工程领域在1960年代独立发现了同一条原理用更工程化的语言表述叫内模原理要实现对某个系统的完美控制控制器内部必须包含该系统的一个模型。用更直白的话说想控制某件事先得在脑子里装着它的运行规律。这条原理贯穿了机器人、航天器、自动驾驶几十年的工程实践。卡尔曼滤波器在1960年代帮助阿波罗导航系统实时预测飞船位置——它不等传感器读数而是先用内部模型猜飞船下一秒在哪再用真实测量值校正误差。这套思路后来出现在语音识别、天气预报、工业机器人里只是换了一套数学外衣。从Craik到预测编码到内模原理三条线指向同一个结论理解世界的最高效方式是在脑子里维护一个可以持续预测的模型而不是被动接收信息。AI世界模型就是把这个想法推向极致的工程尝试。三、它到底能做什么世界模型有三个核心价值。第一个最直觉后两个才是工业界真正在意的也是最容易被忽视的。︱第一在脑子里练一万遍。传统强化学习需要智能体和真实环境反复交互可能要跑几百万次才能学会一个简单任务。每一次交互都是真实时间和真实资源在机器人领域还意味着真实损耗。有了世界模型智能体可以在内部虚拟环境里先跑几万遍。出了问题重置再来。没有物理代价。DeepMind的Dreamer V3在只允许10万步真实交互的基准测试里就超过了人类水平背后靠的正是这个机制。︱第二行动之前先算好。有了世界模型智能体可以在真正动手之前先在脑子里把几条路都走一遍选预期结果最好的那条。DeepMind的MuZero就是这样在没有被告知任何游戏规则的情况下自己摸索出了一套内部动态模型然后凭这套模型同时掌握了国际象棋、围棋和一堆Atari游戏的策略。规则不重要重要的是它自己学会了预测下一步会发生什么。︱第三这是工业界最在意的——安全。机器人、自动驾驶、工业控制这些场景里试错的代价可能是灾难性的。你没办法为了训练模型真的让车在路上撞几千次。世界模型的解法是生成合成数据。给定真实路测片段自动生成同一路口、不同天气、不同行人行为、不同光线的变体把那些极端危险的场景反复演练。NVIDIA的Cosmos系列已经在这个方向上做出了工业级产品——它可以生成罕见或危险场景那些在现实中难以反复采集甚至根本不能让它发生的情况。这种能力是纯真实数据采集永远无法覆盖的。四、80年四个时代︱第一个时代1950年到2017年理论散落各处。七十年里研究者在控制论、语音识别、机器人学的不同角落各自构建预测未来状态的工具从未被统一命名。RNN、卡尔曼滤波器、隐马尔可夫模型……它们解决的是同一类问题但没有人把它们放在同一张图里看。︱第二个时代2018年“在梦里学开车”。David Ha和Jürgen Schmidhuber发表《World Models》第一次把散落的工具组合成可以端到端训练的框架。核心思路是三个模块视觉编码器把画面压缩成低维向量记忆模块预测下一帧的分布控制器把当前状态映射成动作。最令人着迷的是他们的实验把控制器放进模型幻想出的虚拟环境里训练然后把策略迁移到真实游戏。在梦里学会开车醒来就能上路——这个比喻让世界模型第一次走进大众视野。但实验也暴露了一个核心问题智能体学会了利用世界模型的错误来制造虚假高分。在梦境里作弊而不是真正学到技能。这在强化学习里有个专门术语叫reward hacking——模型没学会开车先学会了应付考核。这个问题后来成为整个领域持续攻克的挑战。︱第三个时代2019到2022年潜在空间革命。Dreamer系列的出现彻底改变了世界模型的架构逻辑。核心改变只有一个不再在像素空间里做任何事。一帧64×64的游戏画面有12288个像素值里面大量是光照、纹理、背景噪点这些无关细节。与其预测这12288个数字不如把它压缩成一个只有几十维的向量只保留这里有个平台、那里有个敌人这类结构性信息。所有预测、规划、策略学习全部在这个压缩后的低维空间里完成。速度快了效果反而更好。Dreamer V3用同一套参数横跨Atari、Minecraft、机器人控制等超过150个任务每个领域都拿到了有竞争力的结果。这在此之前从未实现过。︱第四个时代2023年至今视频即世界。两条路线开始汇聚能不能用视频本身来学习物理规律LeCun团队走了一条另类的路抛弃像素重建只在语义空间里预测。我不需要画出你的脸我只需要知道你是谁。这就是JEPA的基本逻辑——不生成只理解。与此同时NVIDIA的Cosmos 3把语言、图像、视频、音频和动作统一到单一架构中试图让模型不只能生成逼真视频还能真正理解其中的物理规律并以此指导机器人行动。这两条路线指向同一个问题但给出了截然不同的答案一个说生成是幻觉理解才是本质另一个说生成本身就是理解的一种形式。这场争论现在还没有结果。五、为什么偏偏是现在Dreamer V1是2019年的视频生成2023年就起步了。为什么偏偏2024、2025才成了每个AI会议的主角不是某个单点突破而是三条线刚好同时成熟撞在了一起。︱第一条视频生成逼出了更深的追问。当视频生成质量提升到一定程度一个尴尬的问题浮出水面生成质量高不等于物理理解深。Sora可以生成极其逼真的水流画面但生成的水有时会穿墙而过。像素上的成功和物理上的理解是两件事这个矛盾把视频生成领域和机器人领域拉到了同一张讨论桌前。︱第二条机器人遭遇了数据天花板。通用机器人训练需要大量遥操作数据采集成本极高而且长尾覆盖永远不够。2025年出现了一种清晰的绕路方案先在互联网规模的视频上预训练学到丰富的物理表征再加入少量交互数据把表征转化为可控的世界模型。Meta的V-JEPA 2就是这个思路的代表——用超过100万小时的互联网视频预训练再用不到62小时的机器人数据后训练最终实现了在全新环境下的零样本抓取能力。62小时换零样本泛化这个数字值得停下来想一想。︱第三条自动驾驶跑通了商业逻辑。用世界模型生成罕见危险场景的合成数据比单纯累积路测里程效率更高——这条路的商业逻辑已经有公司在工业级别验证了。国内初创公司极佳视界发布的DriveDreamer系列已经签约多家头部主机厂。当资本能看到钱从哪里来蜂拥而至就只是时间问题。上一次世界模型热是2018到2020年学术界主导在游戏里证明可行性落地遥遥无期。这一次工业界和学术界同时入场因为它触碰到了真实的成本瓶颈和安全需求。这是性质不同的热度。六、五条路各有各的算盘2023年之后世界模型分化出五条主要路线。每条路线面对的核心权衡不一样选哪条取决于你的任务对哪个瓶颈更敏感。︱RSSM/Dreamer在压缩后的潜在空间里做规划追求样本效率擅长用少量真实交互学到足够好的策略。代价是对长程复杂任务的建模能力有限。︱Transformer路线STORM把视频帧当句子处理每帧压缩成一个离散token借GPT处理文字的方式来预测下一帧。单块RTX 3090训练4小时就能在Atari 100k上超过人类水平。代价是离散化会损失细粒度的连续动态信息。︱扩散模型路线Diamond不做离散压缩直接用扩散模型逐步去噪出下一帧。视觉质量是五种架构里最高的在Atari 100k上以146%平均人类标准化分数超越所有竞争方法。代价是每帧生成需要多次神经网络前向传播计算开销比STORM高出将近一个数量级而且生成过程不可微难以直接对接策略优化。︱JEPA路线V-JEPA 2最另类的一个。根本不生成图像只在语义空间里预测状态变迁。用超过100万小时互联网视频预训练用不到62小时机器人视频后训练实现零样本机器人控制。优势是对物理世界的结构性理解直接建模这个物体在哪里、手是否握住了它完全不关心光照和纹理。代价是可解释性差中间表征难以直观检验。︱具身世界模型DreamDojo、Cosmos面对最现实的问题——机器人操作数据贵到离谱。NVIDIA Cosmos 3在包括近10亿张图像、4亿段视频、人类与机器人动作数据在内的20万亿token多模态数据上完成训练。DreamDojo则专注从人类日常操作视频里提炼物理交互规律在640×480分辨率下达到10.81 FPS的推理速度满足实时控制要求并展现出跨环境零样本泛化能力。没有一条路通吃所有场景。这五条路线在同时演进也在互相借鉴。七、三种声音三种押注五条路线每条都有人在押注。但所有论文都没有正面回答一个更根本的问题世界模型真的是正确的方向吗围绕这个问题AI领域有三种截然不同的声音。︱第一种这是唯一正确的路。这是LeCun的立场也是他用职业生涯最后一段黄金时间下注的判断。2025年11月他离开了担任了十二年首席AI科学家的Meta原因是在架构方向上和公司产生了根本分歧。Meta在大规模押注LLMLeCun认为这是走错了路。AMI Labs的种子轮背后站着NVIDIA、三星、贝佐斯。谢赛宁的比喻流传很广“语言是一剂鸦片。它有用但它是捷径。如果你一直靠拐杖走路你就没办法训练大腿的肌肉。”LeCun的论证更系统LLM处理的是人类发明的符号系统是对世界的二次抽象。文字是人类用来描述世界的工具而不是世界本身。真正的智能需要直接从连续的感官信号中建模物理世界学会因果结构而不是学会统计关联。2026年5月底他的研究组发布了两篇理论预印本从数学上证明了JEPA架构在何种条件下能够恢复真实世界的结构同时配套基准测试指出当前模型在轻微视觉扰动下会出现崩溃。这是AMI Labs成立以来最重要的研究产出——他们不只是在讲故事而是开始给世界模型更可靠这个论断找理论地基。他们的赌注是五年后今天LLM主导的格局会被证明是一段弯路。︱第二种LLM加多模态融合就够了。这是DeepMind的路线。Hassabis的判断是Gemini的演进方向就是成为世界模型但实现方式是在大型多模态LLM上叠加具身推理能力而不是推倒重建。逻辑是LLM已经积累了人类几千年书写知识的压缩表示在这个基础上叠加视觉、空间感知和强化学习比从头建一套新架构更务实。LLM在常识推理、语言指令理解、跨任务泛化上已经足够强而这些恰恰是纯RSSM/JEPA架构最弱的地方。与其放弃已有的优势不如在它上面叠加缺失的能力。这条路线的批评者有具体的反驳LLM学到的是统计关联不是因果结构。它能告诉你玻璃杯掉下来会碎但不知道为什么碎、碎成几片、碎片弹到哪里。这种知道结果但不懂机制的理解方式在语言任务里够用在机器人操作里会踩中最难的那块——你需要的不是常识是精确的物理预测。一个已经反复被验证的经验是堆更多数据、堆更多参数往往能覆盖掉架构设计上的不足。DeepMind在赌的是这个经验在具身智能领域同样成立。︱第三种方向也许对但时机还没到。这是目前最少被公开讨论、在业界却私下流传最广的一种判断。核心是一个数据密度问题。语言的每个token携带极高的语义密度一句话就能传达完整的命题。视觉信号截然不同一帧1080p视频包含约600万像素但其中承载的命题性信息压缩成文字不过几十个词。同等数据量视觉信号能传达的语义量远小于文字。这意味着要训练出能力对标当前LLM的世界模型所需的数据量和算力可能比LLM高出好几个数量级——而产出的能力可能还不如早期的BERT。更深的问题是我们甚至还没想清楚世界模型的涌现需要什么样的目标函数。LLM的成功在于next-token prediction这个目标函数本身就足够强大。世界模型需要一个类似的、同样简洁有力的训练目标而现在还没有人找到它。历史教训不是没有。NLP领域几十年的语法树、词性标注研究LLM出来之后几乎整个作废。脉冲神经网络研究了将近半个世纪Transformer出来之后在几乎所有基准上被直接越过连追赶的机会都没有。这些失败者不是方向错了是被规模定律碾压了——他们选了正确的问题但可能选了错误的时机。这种观点并不是在否定世界模型而是在追问在视觉数据密度问题、训练目标函数问题都还没有根本突破之前这一波大规模押注真的到时候了吗说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】