加州大学圣地亚哥分校找到世界模型为何会“说谎“的答案和解决方案 这项由加州大学圣地亚哥分校主导的研究以预印本形式发布于2026年6月25日论文编号为arXiv:2606.27326v1分类于计算机学习领域cs.LG。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。**一个AI的谎言有多可怕**假设你有一个特别聪明的朋友他声称自己能预测未来。你把一盘棋的局面告诉他问他如果你走某一步会发生什么。他给出了一个头头是道、听起来非常合理的答案——但这个答案根本就不是真实的结果他只是编造了一个感觉上正确的故事。更糟糕的是他本人对自己在撒谎这件事毫不知情。这就是当今人工智能领域一种被称为世界模型的技术所面临的核心问题。世界模型是一类能够理解环境、预测未来状态的AI系统它们被广泛用于游戏、机器人控制、自动驾驶等场景。给它一张当前画面和一个操作指令它就能想象出下一秒会发生什么。这项能力非常强大因为有了它AI不需要真正去做每一个动作、承担每一次失败就能在脑海中模拟千百种可能从而做出最优决策。然而这类系统有一个隐蔽的毛病它们会幻觉——生成的画面看起来流畅、真实、合理却与真实世界的规律完全脱节。一个球在真实游戏里出界了世界模型却可能幻觉出球神奇地传送回来继续比赛一个从未见过的迷宫布局模型可能会悄悄把它替换成一个它曾经见过的类似布局……最危险的地方在于这些错误不会让系统崩溃报错它们以一种自信且流畅的方式出现几乎无从察觉。加州大学圣地亚哥分校的研究团队决定系统性地揭开这个谜题这些幻觉究竟从哪里来能不能在它发生之前就预测到又该如何根治**一、先造一个够用的练习场MMBench2数据集**要研究幻觉首先得有一个足够大、足够多样、足够真实的实验环境。已有的数据集要么太小、要么没有配套的真实标准答案、要么任务场景太单一根本不足以支撑这样的研究。于是研究团队动手创建了一个全新的数据集命名为MMBench2。这个数据集的规模相当惊人65,600条轨迹数据换算成视频时长达到427小时总计2300万帧画面每帧都是224×224像素的彩色图像清晰度足以区分细节。这些数据覆盖了210个不同的控制任务从机器人手臂抓取香蕉到游戏角色在迷宫中奔跑再到跷跷板平衡、双足行走……场景之丰富堪称一个微型的AI训练联合国。更关键的是这210个任务横跨十个完全不同的领域包括经典的物理仿真控制套件DMControl、机器人操作环境Meta-World和ManiSkill3、经典物理引擎MuJoCo、2D物理游戏Box2D、桌面操作任务RoboDesk、目标导航环境OGBench、小型街机游戏MiniArcade以及大家熟悉的雅达利Atari电子游戏。每个任务的控制维度从1维到16维不等有些任务只需前后左右四个方向有些任务则需要同时控制十几个关节。数据集的另一个亮点是行为多样性。在大多数AI训练数据集中数据都来自表现优异的专家策略——相当于只让职业棋手的棋谱来教AI下棋缺少初学者的犯错过程和各种奇怪尝试。MMBench2则刻意收集了多种行为类型有专家策略生成的高质量数据有完全随机乱来的随机策略数据有全程按零输入的无操作数据有专家策略加上各种噪声和变形的混合数据还有基于好奇心驱动的探索数据以及最特别的——真实人类通过键盘界面亲自操作的人类游玩数据共1400条。为了让研究更有针对性研究团队在210个任务中划定了两个区域200个任务作为训练集另外10个任务被完全封存作为测试模型见到从未见过的场景时会怎样的专用试炼场。**二、造一个够大的世界模型来研究**有了数据下一步是训练一个足够强大的世界模型以便观察幻觉的发生规律。研究团队选择了一个被称为Dreamer 4的架构作为基础这是当前世界模型领域的先进方案之一并在此基础上训练出了一个拥有3.5亿参数的视觉世界模型。这个世界模型由两个核心模块串联构成整个工作流程就像是一套压缩—预测—还原的流水线。第一个模块叫做视频分词器Tokenizer它的任务是将一张完整的画面压缩成一段紧凑的概念编码。具体来说一张224×224的图片首先被切割成256个小方块每个方块14×14像素然后由编码器将这些方块与64个可学习的查询向量一起处理最终把整张图的视觉信息压缩成一个64×64维的紧凑表示每个数值都被限制在-1到1之间。这个过程就像把一本书压缩成几页摘要——大部分核心信息都保留了但不常见的细节可能会被模糊处理。解码器则负责根据这份摘要重新还原出一张图片。训练这个分词器的方式很有意思每次训练时系统会随机遮住图片中0%到90%的方块然后要求模型仅凭剩余的可见方块重建出被遮住的部分。这就像玩拼图游戏时只给你三分之一的碎片要求你推断出整幅画面——这种强迫推断的训练方式使模型学会了理解图像的深层结构而不仅仅是记住像素。第二个模块是动力学模型Dynamics Model这是整个世界模型的推理引擎参数量高达2.5亿使用了一种叫做块因果Transformer的架构。它的任务是给定当前的视觉编码和即将执行的动作预测下一时刻的视觉编码。这个模型采用了一种叫做快捷流匹配Shortcut Flow Matching的训练技术使得在推理时只需要4步就能生成下一帧速度很快。整个训练过程分两步走先在200个任务的全量数据上预训练分词器让它学会压缩各种场景再在冻结分词器的基础上预训练动力学模型让它学会在压缩空间中进行动作条件下的动态预测。此外研究团队还在模型上附加了两个额外的读数头一个奖励预测头用来估计执行某个动作能获得多少奖励一个行为克隆头用来模仿训练数据中的行为策略。**三、幻觉的三张面孔**这是整篇研究最核心的部分。研究团队系统分析了世界模型在哪些地方会出错并将所有幻觉现象归纳为三种截然不同的类型每一种都对应着压缩—预测—还原流水线中的不同环节。第一种幻觉叫做感知幻觉问题出在第一步——压缩环节。当模型遇到一个从未见过的场景时比如一个全新布局的迷宫编码器会把这个陌生场景强行映射到它记忆中最相似的已知场景上。解码后迷宫的整体风格可能是对的角色和目标的位置可能也是对的但墙壁的布局却变成了一个完全不同的已见过的迷宫。这就好比你向一个只去过北京和上海的人描述杭州西湖他脑海中浮现的可能是颐和园的画面——大致类似但细节全错。更危险的是这种错误发生在流水线的最开始后续所有的预测都是建立在这个错误基础上的错误会持续传播和累积。第二种幻觉叫做动作边缘化幻觉Action Marginalization问题出在动力学预测环节——模型忽视了动作指令的存在。正常情况下如果你告诉世界模型向左走它预测的下一帧画面应该明显反映出向左走的效果。但动作边缘化幻觉发生时模型的预测几乎不受动作指令影响无论你输入什么动作它都在预测一个最平均、最可能的未来。换句话说这个世界模型退化成了一个普通的视频生成器——它能生成流畅的视频但失去了可控性这一世界模型的核心价值。研究团队通过一个巧妙的测试方法来检验这种幻觉在评估时随机打乱一批数据中的动作标签如果模型对这种打乱几乎没有反应就证明它已经学会了忽视动作。第三种幻觉叫做场景发散幻觉这是在长序列预测环节出现的问题。当模型连续预测多个时间步时每一步的小误差都会叠加到下一步这是所有自回归预测系统都面临的普遍挑战。但场景发散幻觉特指那些特别离谱的失真比如在乒乓球游戏中球明明已经出界得分了模型却在下一帧预测球神奇地传送回了球场中央继续比赛。这种物理上完全不可能发生的事件往往出现在训练数据中覆盖不足的状态区域。为了验证这三种幻觉类型研究团队还专门展示了对比案例。在感知幻觉的对比中一个见过类似场景的模型能正确重建迷宫布局而遇到全新布局的模型则把它替换成了已知的旧布局。在动作边缘化的对比中正常模型的预测画面能清楚反映用户的操作幻觉模型的画面则完全看不出动作的影响。在场景发散的对比中正常情况下即使有轻微误差累积也维持着合理的物理画面而发散幻觉则出现了球瞬移等物理上荒谬的事件。**四、为什么会幻觉根源是见识不够**在揭示了幻觉的三种面孔后研究团队提出了一个统一的解释框架这三种幻觉本质上都是同一件事造成的——训练数据在某些区域的覆盖不足。用一个直观的比方来理解你要训练一个厨师学生学会做各种菜。如果培训材料里做宫保鸡丁的案例有100个、做麻婆豆腐的有80个、但做新疆大盘鸡的只有3个那么这位学生在遇到大盘鸡时就会手足无措——他可能会把它做成一道融合版辣子鸡看起来像那么回事但口味完全不对。这就是覆盖不足导致幻觉的逻辑。感知幻觉对应的是分词器在某些视觉场景上的覆盖不足——那些陌生的视觉结构在训练数据中太少见模型不知道如何正确压缩它们。动作边缘化幻觉对应的是动作条件过渡数据的覆盖不足——在某个场景下执行某个特定动作后发生什么训练数据里几乎没有记录模型只好忽略动作退而求其次地预测一个平均化的未来。场景发散幻觉则对应着轨迹中特定状态区域的覆盖不足——模型在那些偏僻的状态空间角落里没有足够的训练样本预测的可信度极低各种奇怪的错误就会冒出来。研究团队通过可视化实验漂亮地证实了这一点。他们将不同任务中的数据分布绘制成状态密度图类似于热力图颜色越深代表训练数据越密集同时绘制了模型幻觉程度的分布图。两张图几乎是互补的镜像数据越稀疏的区域幻觉越严重数据越密集的区域预测越准确。这种规律在他们测试的所有任务中都高度一致。**五、三种信号提前预知幻觉**发现了根源还不够研究团队更进一步他们开发了三种无需额外训练、无需任何标注标签就能在运行时实时预测幻觉的信号。这就像给世界模型安装了一套自我诊断系统让它能在说谎之前先发出警报。第一种信号叫做分词器往返残差Tokenizer Round-trip Residual用符号ur表示。它的工作原理非常直接动力学模型预测出下一时刻的视觉编码之后先用解码器把它还原成图像再用编码器把这张图像重新压缩一次看看两次编码之间的差距有多大。如果一切正常两次编码应该几乎一样差距极小。但如果动力学模型预测出了一个视觉上不合理的画面——比如一个从未在训练集中出现过的新场景布局——解码出来的图像就会偏离分词器的舒适区重新编码后的结果会和原始预测相差很远产生一个大的残差。这个残差值就是衡量感知幻觉风险的指标。第二种信号叫做流不稳定性Flow Instability用符号uf表示。动力学模型使用的流匹配技术在生成预测时会经历多个中间步骤就像逐渐从模糊到清晰地生成一张图片。如果模型对当前的场景和动作条件非常确定它的预测会在这些步骤中保持稳定最终锁定在一个清晰的结果上。但如果条件信息给的信号不够强烈——比如碰到了训练数据中动作覆盖不足的情况——模型在每一步之间的目标预测就会来回摇摆犹豫不决。测量这种摇摆程度就是流不稳定性信号它专门针对动作边缘化幻觉。第三种信号叫做跨种子方差Inter-seed Variance用符号us表示。流匹配生成过程从随机噪声开始不同的随机起点种子理论上应该最终收敛到同一个正确的预测结果。如果在同一场景和同一动作条件下用不同的随机种子运行多次结果却大相径庭说明模型对这个情况的认知极不确定不同的随机路径会把它引向完全不同的预测这正是场景发散幻觉即将发生的前兆。在实际使用时研究团队发现一个小问题场景中运动越剧烈这三个信号就越容易被虚假地拉高因为激烈的运动本身就会导致画面变化大。为了消除这种干扰他们设计了一种归一化处理——用场景的实际运动幅度去除以上面的信号值得到运动归一化版本加上norm上标。经过归一化后三个信号都变成了相对于场景复杂度的模型不确定性更加精确可靠。为了验证这三个信号确实有预测能力研究团队在9000个保留的测试序列上做了严格的相关性分析。结果显示三个信号与实际的预测误差用图像质量指标PSNR衡量之间的斯皮尔曼相关系数均约为-0.80。这是一个相当强的负相关——信号越高预测质量越低两者之间的关系远不是偶然。此外在针对两种二元幻觉标签动作是否被忽视、场景是否发散的分类准确率AUROC测试中三个信号的表现也都超过了0.87远优于仅依靠帧数量、场景运动量等简单基线指标。**六、如何治好幻觉两条路径**找到了病根检测到了病症接下来就是治疗。研究团队提出了两种互补的干预方案分别针对训练时和运行时两个阶段。第一条路径叫做覆盖感知训练。既然幻觉来自数据覆盖不足那么调整训练时采样数据的方式就能直接填补这些空白。原有的训练数据采样方式是按帧数均匀采样——帧数多的任务自然获得更多训练机会。研究团队发现这导致了严重的不均衡Atari游戏因为每局时间很长一个任务就能贡献上百万帧而某些ManiSkill3的短任务每局只有25帧在整个数据集中的存在感微乎其微。把采样方式改成按任务均匀采样之后每个任务获得的训练机会大体相当那些原本被淹没的稀有任务也有了足够的曝光量。这个看起来极为简单的改动带来了令人欣喜的结果。研究团队对分词器和动力学模型分别做了30k步的额外训练并对两者都采用覆盖感知采样。结果显示重建图像质量PSNR提升了0.44 dB动作敏感度衡量模型是否真正响应动作指令的指标提升了0.29多步预测质量提升了0.88 dB三个幻觉信号全部显著下降。这是用完全相同的数据、仅仅改变了采样策略就获得的免费提升。第二条路径叫做针对性数据收集适用于模型面对全新环境的情况。当面对10个完全未见过的测试任务时仅靠重新采样是不够的——那些任务在训练数据中根本不存在重新采样也无济于事。这时幻觉预测信号就有了第二个用途充当好奇心奖励引导AI主动去探索那些它最不确定的区域主动收集最有价值的新数据。具体做法是在新任务的环境中运行时让AI用世界模型在脑海中想象多条可能的行动轨迹然后用ur信号给每条轨迹打分选择幻觉风险最高的那条轨迹实际执行。这样AI就会倾向于主动走向那些它最陌生、模型最容易出错的区域并把这些稀缺的经验数据收集回来用于微调。研究团队将这种好奇心驱动的数据收集与其他几种方案进行了直接对比随机行动、全程不动零输入、专家策略以及最重要的——人类亲自上手游玩。结果非常有说服力以专家策略收集的50条轨迹微调后模型在10个未见任务上的归一化得分达到0.362用好奇心驱动收集的50条轨迹微调后模型得分达到了0.325约为专家策略的90%却完全不需要任何预先设计的任务特定专家策略。相比之下随机策略只能达到0.228零输入策略只有0.163。如果把所有类型的数据组合在一起效果还能进一步提升至0.390超过了单独使用专家策略的表现。这说明数据的多样性本身就有价值不同策略收集的数据互补性很强。**七、还要过分词器这一关**研究还顺带探讨了一个实际工程中会遇到的问题能不能直接用现成的、在海量网络视频上训练好的通用视频分词器来替代专门训练的分词器毕竟训练一个分词器需要相当多的计算资源。研究团队将自己训练的分词器与四个通用方案进行了比较包括Stable Diffusion使用的SD-VAE-MSE、NVIDIA的Cosmos视频模型的分词器、阿里巴巴发布的Wan 2.1视频模型的分词器以及DC-AE。评估分别在200个已见任务和10个未见任务上进行用图像重建质量作为指标。结果显示出了有趣的对立在已见任务上自己训练的专用分词器表现远优于所有通用分词器其中最强的Wan 2.1 VAE重建PSNR约为36.45 dB而专用分词器在未微调时已达38.29 dB微调后更是提升至39.66 dB。但在未见任务上情况翻转了——未经微调的专用分词器在未见任务上的PSNR只有17.34 dB表现极差而Wan 2.1 VAE则稳定在36.62 dB因为它在更广泛的互联网视频数据上训练具有更强的泛化能力。一旦对专用分词器进行针对性微调情况又翻转回来微调后的专用分词器在未见任务上达到38.04 dB再次超越所有通用方案。这个发现给出了一个实践性的工程建议通用分词器是一个很好的保底方案尤其是当没有条件收集新任务数据时但只要有哪怕少量的目标领域数据用于微调专用分词器的表现就会更好。**八、研究局限与未来展望**研究团队对自己工作的边界做了清醒的表述。这项研究在3.5亿参数规模的模型上取得了可靠的结论但更大规模的模型比如数十亿参数的系统是否遵循同样的规律目前还是一个开放问题。此外所有实验都在计算机仿真环境中进行真实世界中的机器人任务还面临传感器噪声、部分可观测性、真实物理摩擦等额外挑战这些因素是否会改变研究结论还需要进一步验证。另外训练大型世界模型的计算成本相当可观——仅预训练阶段就需要消耗8块顶级GPUNVIDIA H100运行约38天。说到底这项研究最引人深思的地方在于它对幻觉问题的重新定性。它改变了一个在AI领域普遍存在的直觉当模型出错时人们习惯性地认为这是架构不够大、算法不够好的问题解决方案是继续堆叠更多参数、设计更复杂的网络结构。但这项研究给出了一个不同的答案至少对于世界模型的幻觉问题根源不在于模型本身而在于数据的覆盖范围。一个在某个区域没见过足够多例子的模型无论参数有多少都会在那个区域失去可靠性。这意味着与其花大量资源设计更复杂的模型不如把注意力放在让模型见识足够广上——通过更聪明的采样策略、更有针对性的数据收集用相对低廉的成本就能获得可观的性能提升。那个好奇心驱动探索的结果尤其令人印象深刻一个从未见过某个任务的模型仅靠自主探索收集50条轨迹就能达到有人类专家示范90%的性能水平。这背后有一个更深的含义知道自己不知道什么并主动去填补空白或许比单纯知道更多事情更有价值。对于未来想要部署世界模型的研究者和工程师来说这项研究提供了几个可以直接使用的工具三个轻量级的幻觉检测信号一个无需额外数据的免费训练改进方案以及一套针对新环境的高效数据收集框架。有兴趣深入了解实现细节的读者可以通过arXiv:2606.27326v1获取完整论文项目的数据集、代码、模型权重以及一个可交互的世界模型浏览器界面也已在nicklashansen.com/mmbench2上公开。QAQ1世界模型的幻觉和大语言模型的幻觉有什么区别A大语言模型的幻觉是生成了事实错误的文字比如编造了不存在的历史事件。世界模型的幻觉则是生成了物理规律错误的视频画面比如预测球在出界后神奇传送回来。世界模型的幻觉危害更大因为这些错误预测会直接输入给机器人或游戏AI来指导它们的行动决策错误的预测会导致错误的真实行为。Q2MMBench2数据集的未见任务是做什么用的A在MMBench2的210个任务中有200个用于训练世界模型另外10个被完全封存从不参与训练。这10个未见任务专门用来测试世界模型在完全陌生环境中的表现相当于用一套从未见过的考题来测试模型的真实泛化能力而不是死记硬背的能力。研究团队正是通过这10个未见任务来评估好奇心驱动探索的效果。Q3好奇心驱动数据收集怎么做到不需要人类示范就能接近专家水平A好奇心驱动的核心思路是让AI主动去探索它最不确定的区域也就是世界模型幻觉风险最高的地方。它用自己训练好的世界模型在脑海中模拟多条轨迹专门选择那些让模型最困惑的轨迹去真实执行从而收集到最有价值的新数据。这种方式不需要知道任务目标是什么只需要知道哪里最陌生所以也不需要任何人类示范。50条轨迹就能达到专家水平的90%正是因为这种精准的哪里弱补哪里策略。