突破单角色!英伟达多Agent世界模型,把单机玩法变成联机游戏 两人训练四人零样本泛化γ-World让世界模型告别单人模式。这就是英伟达联合清华大学、多伦多大学和Vector Institute推出的γ-World。它把世界模型从单人单机时代拉进了多人共享空间让多个Agent在同一套物理规则下同时行动、互相影响、实时交互。三项核心技术一套不用参数的几何编码方案解决了Agent身份问题一种线性代价的跨Agent注意力机制解决了交互效率问题一份从教师到学生的蒸馏流水线解决了实时推理问题。多人世界的结构瓶颈过去两年Sora、Cosmos、Genie这些系统把生成式世界模型的视觉质量和时间一致性推到了相当可观的水平。它们有一个共同的简化假设就是世界里只有一个主动参与者。单人操控单人视角单条动作流驱动一切。在单Agent场景下世界模型只需要根据一个动作信号生成未来观测就行了。真实世界远比单人场景复杂。多人游戏里你的走位改变队友和对手的可选策略一个人开了枪其他人都要做出反应。工厂车间里一台机械臂的运动轨迹约束了另一台的空间两者的路径规划必须协调。具身智能训练中多个Agent同时探索同一个环境谁推了一下门、谁挪了一下椅子都会改变别人面对的世界状态。这些场景有一个共同特征多个智能体在同一个共享空间里行动彼此之间有因果联系一个人的动作改变其他人的观测。把世界模型从单人搬到多人远不是在一个画面里多放几个角色那么简单。它要同时满足三个互相拉扯的条件。每个Agent需要独立可控每个玩家的动作指令只驱动自己的行为不会串到别人身上。每个Agent的身份地位需要对称等价谁先谁后不应该影响模型的行为。推理效率还要撑得住多个Agent同时在线计算开销不能爆炸式增长。现有方案在这三点上常常顾此失彼。固定槽位方案给玩家1、玩家2分别学一套身份参数模型学到的往往是这两个特定槽位之间的互动模式一种绑定顺序的局部经验。想加玩家3和玩家4就得重新训练因为模型从来没有见过第三个槽位长什么样。密集交互方案让所有Agent的Token两两做注意力计算计算量随Agent数量呈二次增长。两个玩家还撑得住四个玩家的计算量就翻了四倍再往上加就更难收场。γ-World的目标是设计一套从底层架构出发的多Agent机制让身份不依赖学习参数让交互不依赖全连接让推理不依赖重复计算。几何编码和枢纽注意力γ-World的前两件武器分别攻破身份和交互两个瓶颈。第一件叫Simplex Rotary Agent Encoding单纯形旋转Agent编码简称SRAE。它是对3D RoPE旋转位置编码的一种参数免费扩展。3D RoPE本身在Transformer架构中被广泛用来编码空间位置信息通过旋转矩阵把三维坐标映射到角度空间让模型感知不同Token之间的相对位置关系。SRAE在这个基础上做了一步关键延伸把Agent的身份也编码进旋转角度空间。具体做法是把N个Agent映射到旋转角度空间中正则单纯形的N个顶点上。正则单纯形是高维几何中的基本对象它有一个关键性质任意两个顶点之间的距离完全相等。在二维空间里正则单纯形就是等边三角形在三维空间里是正四面体。维度再高依然保持所有顶点等距的对称结构。映射到角度空间后每个Agent拿到一个独特的旋转相位同时任意两个Agent之间的编码距离是一样的。谁也不比谁特殊谁也不依赖谁先来后到。不需要学参数不需要固定顺序不需要为每个槽位预留身份嵌入。Agent数量变了只要算出新顶点的坐标就行整个编码方案自动适配。排列等价性直接带来了泛化能力。γ-World用双玩家数据训练推理时直接扩展到四个玩家不需要额外训练。模型学到的已经超越了两个特定位置之间的互动方式它掌握的是多个Agent在共享空间里共处的一般规律。位置可以换数量可以加底层编码逻辑不变。第二件叫Sparse Hub Attention稀疏枢纽注意力简称SHA。它解决的是跨Agent通信的效率问题。传统的全连接方案里每个Agent的Token都要和所有其他Agent的Token做注意力计算代价是O(N²)。N代表Agent数量两个玩家时交互对数是2四个玩家时变成12增长很快。SHA的思路是引入一组可学习的Hub Token作为中介。Agent把信息发给枢纽枢纽再把整合后的信息广播回来。通信路径从两两直连变成了Agent到枢纽再到Agent跨Agent注意力代价从二次降到了线性和Agent数量成正比。这个设计跟现实世界的信息流通逻辑很像与其让所有人两两对话不如设立一个信息中心大家各自汇报、各自听取。枢纽Token是可学习的它能学会怎么高效地压缩和分配跨Agent信息哪些特征需要广播给所有人哪些只需要在局部消化都由模型在训练中自己决定。英伟达的项目页面提到SHA在四个Agent的场景下已经展现出明显的计算优势Agent越多优势越大。两件武器配合起来SRAE保证了身份的对称性和可扩展性SHA保证了交互的可负担性。整个架构不再为某个特定的玩家数量做硬编码Agent数量从2变到4甚至更多结构不用改参数不用重新学。蒸馏出实时世界身份和交互的问题解决了还有一个现实挑战摆在面前推理速度。世界模型要能实时响应玩家的动作输入延迟一大交互感就崩了。玩过游戏的都知道输入延迟超过几十毫秒手感就会明显变差。对于交互式视频生成来说帧率就是生命线。γ-World用了一套教师到学生的蒸馏方案来应对。教师是一个双向多Agent扩散模型能同时看到所有时间步的信息生成质量高但没法逐帧流式输出。扩散模型的天性就是反复去噪、逐步细化每一次生成都需要多步迭代实时推理困难。学生是一个分块因果模型按时间顺序逐块生成只依赖已生成的过去帧支持KV键值缓存。蒸馏过程把教师的生成能力转移到学生身上学生在保持因果性的同时逼近教师的输出质量。关键在于教师的双向视野让它能学会Agent之间完整的时空交互关系学生在受限的因果条件下尽量复现这些关系同时获得流式输出的能力。有了因果结构和KV缓存推理时每生成一个新的时间块只需要计算当前块的增量不用重新处理整个序列。之前已经算过的Key和Value都存在缓存里直接复用。最终24 FPS的实时动作响应生成画面按顺序流出玩家操作即刻反馈。实验在多人虚拟环境中展开对比对象包括基于槽位的方案和密集注意力基线。结果显示γ-World在视频保真度、动作可控性和Agent间一致性三项指标上全面领先。在两玩家的标准测试中γ-World生成的画面更清晰、动作跟踪更准、Agent之间的物理交互更合理。双玩家训练、四玩家推理的零样本泛化实验尤其值得关注。没有用四玩家数据做过任何额外训练模型在四Agent场景下依然能生成连贯的同步视角保持共享世界状态的一致性。每个Agent独立可控同时画面里所有Agent共享同一个物理世界一个人的动作改变其他人的视角和可用选项。SRAE的对称编码保证了四个Agent之间的身份等价性SHA的线性通信保证了四个Agent同时在线时计算量依然可控。虚拟游戏之外γ-World还在真实机器人协作场景中做了验证。两只机械臂在桌面上各自动作模型生成的未来帧保持了两条臂共享的空间布局和交互关系。每个机械臂作为一个独立Agent生成的画面在空间上协调一致。虚拟环境和真实机器人两种场景的验证说明γ-World的架构设计对环境类型没有硬依赖只要场景中存在多个独立可控的Agent就能适用。具身AI、多机器人协作、自动驾驶多车交互任何需要多个智能体在同一物理空间里行动的场景都在射程之内。大语言模型吃的是整个互联网的语料规模以万亿Token计。而机器人没有同等级别的数据源。采集一小时的双臂协作数据需要硬件、场地、监督和时间成本高昂规模有限。一个可扩展的多Agent世界模型能改变这个等式。在生成环境中模拟协作、竞争、探索和失败用仿真轨迹训练策略用策略产出更好的数据再用数据反哺下一代世界模型。γ-World指向的正是这个飞轮的起点。从固定两人到弹性多人从二次方到线性从离线扩散到实时流式γ-World的每一步都在让生成式世界模型真正适配多人共享的物理现实。零样本从2到4的泛化结果让人有理由相信5个、8个、甚至更多Agent同屏交互也是有可能的。参考资料https://research.nvidia.com/labs/sil/projects/gamma-world/https://github.com/nv-tlabs/Gamma-Worldhttps://arxiv.org/pdf/2605.28816