CVPR26最佳论文提名:NitroGen,面向通用游戏智能体的 视觉-动作基础模型 NitroGen: An Open Foundation Model for Generalist Gaming Agents作者Loïc Magne, Anas Awadalla, Guanzhi Wang 等机构NVIDIA, Stanford, Caltech, UChicago, UT AustinarXiv: 2601.02427v1 [cs.CV] | 2026年1月核心摘要本文介绍 NitroGen一个面向通用游戏智能体的视觉-动作基础模型。该模型基于超过40,000小时、涵盖1,000余款游戏的互联网游戏视频进行训练通过自动提取玩家操作构建大规模视频-动作数据集。NitroGen 采用基于流匹配Flow Matching的统一视觉-动作架构在3D动作、2D平台跳跃、程序生成世界探索等多样化场景中展现出强劲能力。实验表明在未见过的游戏中进行微调时NitroGen 预训练权重可将任务成功率最高提升52%。研究团队同步开源了数据集、评测套件与模型权重为通用具身智能研究提供了重要的基础资源。一、研究背景通用游戏智能体的数据瓶颈构建能够在未知环境中自主行动的通用具身智能体长期以来被视为人工智能领域的核心目标之一。计算机视觉与自然语言处理领域已通过大规模预训练实现了显著的泛化能力然而具身智能的进展长期受限于缺乏大规模、多样化且带有动作标注的数据集。游戏环境因其视觉丰富、交互性强、任务复杂度跨度大成为推进具身智能研究的理想试验场。此前的主流技术路线面临各自局限。基于大语言模型LLM的方法通常依赖手工设计的程序接口访问游戏内部状态或需要复杂的感知模块提取文本信息强化学习在单个游戏中取得了超人类表现但智能体狭窄且训练成本高昂依赖专用模拟器基于像素观测的行为克隆方法则受限于昂贵的示范数据收集通常仅能覆盖少数几款游戏。这些限制使得开源的通用游戏智能体框架发展缓慢进而制约了整个领域的研究进度。针对上述挑战NVIDIA 联合斯坦福、加州理工等机构的研究团队提出了 NitroGen。该工作的核心思路是利用互联网上公开可获取的游戏视频资源通过自动化的动作提取构建互联网规模的数据集并在此之上训练统一的视觉-动作基础模型从而大幅降低开发通用游戏智能体的数据门槛。据论文介绍NitroGen 的数据集涵盖超过40,000小时游戏视频涉及1,000余款不同游戏是当前最大规模的公开游戏视频-动作数据集。二、NitroGen 三大核心贡献图1 NitroGen 整体架构概览。系统包含三大核心组件多游戏基础智能体中、通用模拟器左与互联网规模视频-动作数据集右。NitroGen 的系统架构围绕三个相互支撑的模块展开见图1。首先是互联网规模的视频-动作数据集研究团队提出了一种从公开游戏视频中自动提取玩家动作的新方法其次是多游戏评测套件包含10款商业游戏中的30项任务覆盖战斗、导航、平台跳跃、解谜等多样化挑战最后是基于大规模行为克隆训练的视觉-动作基础模型能够接收游戏画面输入并输出手柄控制信号。2.1 互联网规模视频-动作数据集构建训练通用游戏策略的核心难点在于恢复与视频对应的真实玩家动作。大多数游戏录制视频并不包含操作输入信息。NitroGen 团队发现了一类特殊的公开视频资源部分内容创作者在直播或录制时会使用输入叠加Input Overlay软件在屏幕角落实时显示手柄图像并以高亮方式展示当前按下的按钮和摇杆位置。这类视频原本多见于速通Speedrun社区但近年来已被广泛应用于各类动作游戏且覆盖了从休闲玩家到竞技选手的广泛技能层级。图2(a) 包含手柄叠加层的游戏视频示例。不同创作者使用的手柄类型、透明度和视觉风格差异显著。图2(b) 动作提取流水线。包含模板匹配定位、手柄区域裁剪、摇杆分割与按钮分类三个阶段。基于这一观察研究团队构建了包含71,000小时原始视频的数据池并设计了三阶段动作提取流水线见图2。第一阶段采用模板匹配利用约300种常见手柄模板通过 SIFT 与 XFeat 特征点在采样帧中进行关键点匹配定位屏幕中的手柄叠加区域。第二阶段使用微调后的 SegFormer 分割模型解析手柄状态模型接收连续两帧拼接图像以捕捉短期时序动态输出摇杆在11×11离散网格上的位置分割掩码以及按钮的二进制状态。第三阶段实施质量过滤仅保留动作密度较高的片段至少50%的时间步包含非零动作以避免模型过度预测空动作。为训练分割模型团队使用 Open Joystick Display、Input Overlay 和 GamePad Viewer 等软件合成了800万帧带标注数据并通过随机调整叠加层透明度、手柄尺寸和视频压缩参数来模拟真实世界的视觉扰动。论文报告显示该流水线在 Xbox、PlayStation 等主流手柄家族上取得了平均0.84的摇杆位置R²分数与0.96的按钮帧准确率见图5。图3 NitroGen 数据集分布。(a) 各游戏时长分布846款游戏拥有超过1小时数据15款游戏超过1,000小时(b) 类型分布动作角色扮演34.9%、平台跳跃18.4%与动作冒险9.2%占据主要份额。经过筛选最终数据集包含40,000小时视频覆盖1,000余款独特游戏来源于818位不同创作者。从类型分布看见图3动作角色扮演类游戏占比最高34.9%其次为平台跳跃18.4%与动作冒险9.2%其余份额分布于体育、竞速、Roguelike、格斗等九种类型。846款游戏拥有超过1小时的数据量91款超过100小时15款超过1,000小时展现出良好的长尾覆盖特性。2.2 多游戏评测套件与通用模拟器为评估智能体在真实场景中的泛化能力研究团队设计了一个包含10款商业游戏、30项任务的基准环境。评测任务分为三类11项战斗任务Boss战、敌人遭遇、10项导航任务到达特定位置、穿越环境以及9项游戏专属任务特定机制操作。其中五款为2D游戏三款横版卷轴、两款俯视角Roguelike五款为3D游戏两款开放世界、两款动作角色扮演、一款体育游戏。图4 NitroGen 在多样化2D与3D环境中的任务执行示例。任务时长从数秒到数分钟不等部分需要记忆部分在程序生成的世界中完成。为实现对任意商业游戏的程序化控制团队开发了通用模拟器Universal Simulator。该工具通过拦截游戏引擎的系统时钟来控制模拟时间实现逐帧交互无需修改游戏代码即可适配任何基于系统时钟驱动物理与交互逻辑的游戏标题。研究团队将这一接口封装为标准的 Gymnasium API便于开发者以统一方式测试不同游戏中的智能体能力。观测空间为单帧RGB图像动作空间则统一为16维二进制按钮向量方向键、面部键、肩键、扳机键、摇杆按下、开始/返回键加上4维连续摇杆位置向量。这种跨游戏的统一动作布局直接支持策略在不同游戏间的迁移。2.3 视觉-动作基础模型架构NitroGen 的模型架构借鉴了机器人领域最新的流匹配生成建模技术并基于 GR00T N1 进行适配改造。模型接收256×256分辨率的RGB输入使用 SigLIP 2 视觉Transformer进行编码每帧生成256个图像Token。动作生成采用扩散TransformerDiT通过流匹配Flow Matching目标生成16步长的未来动作片段。具体而言噪声动作片段首先经MLP编码为每时间步一个动作Token随后通过多个DiT块处理块内交替使用自注意力与交叉注意力层交叉注意力层将动作生成条件化于编码后的图像Token。最终动作Token经独立MLP解码为连续动作向量。在架构设计选择上研究团队发现使用单帧上下文即可取得良好效果增加历史帧并未带来额外收益。这可能是因为动作游戏的初始画面通常已包含足够的行为上下文。模型采用单帧上下文生成16步动作块相比单步生成显著提升了时间一致性。训练采用标准的条件流匹配目标推理时执行16步去噪的欧拉积分。训练过程中应用了随机亮度、对比度、饱和度、色调调整、±5度旋转及随机裁剪等图像增强策略采用 AdamW 优化器与WSDWarmup-Stable-Decay学习率调度并维持指数移动平均EMA权重。三、实验验证与结果分析3.1 预训练模型的跨游戏表现研究团队在完整数据集上训练了单一模型。在未针对特定游戏进行微调的情况下NitroGen 在多款游戏和任务上已展现出非平凡的成功率。如图6所示模型在3D、2D俯视角和2D横版卷轴等不同视觉风格以及平台跳跃、动作角色扮演、Roguelike等多种类型中均表现出稳定的任务完成能力。图5 NitroGen 500M参数模型预训练结果。在未针对特定游戏微调的情况下模型在3D、2D俯视角、2D横版卷轴游戏中均展现出非平凡的任务完成率。值得注意的是模型在可记忆任务固定关卡布局与需要零样本泛化的任务程序生成关卡之间并未出现显著性能差异表明 NitroGen 既能利用训练记忆中的知识也能适应未见过的场景配置。这一结果验证了仅使用含噪的互联网数据训练稳健多游戏策略的可行性。论文指出数据中的噪声来源包括输入叠加软件引入的微小延迟、解析过程带来的不精确性、视频帧中常见的创作者专属元素如直播聊天框、订阅提示、进度追踪器以及不同玩家间控制器灵敏度与自定义按键映射的差异。尽管存在这些挑战大规模预训练仍成功产出了具有鲁棒性的跨游戏策略。3.2 微调迁移预训练的价值验证为验证预训练对下游任务的增益研究团队设计了留一法实验在完整数据集上预训练 NitroGen但排除某一款特定游戏随后使用有限数据在该保留游戏上微调预训练模型并与从零开始、使用相同架构和相同数据量训练的模型进行对比。实验覆盖了两款具有代表性的游戏一款等距视角Roguelike游戏和一款3D动作角色扮演游戏。图6 后训练实验在未见环境中基于 NitroGen 预训练权重的微调模型显著优于从零训练模型。(a) 数据量变化下的等距Roguelike游戏(b) 30小时低数据场景下的3D动作角色扮演游戏按任务类型划分。结果如图7所示。在等距Roguelike游戏中随着微调数据量从60小时增加到240小时基于预训练的模型任务完成率持续领先平均相对提升约10%。在3D动作角色扮演游戏的低数据场景30小时中预训练带来的增益更为显著战斗类任务完成率从48.3%提升至73.3%相对提升达52%导航类任务从48.0%提升至60.0%游戏专属任务从63.3%提升至66.6%。论文分析指出预训练收益在不同游戏类型与任务类别间存在差异。3D动作角色扮演游戏的平均相对提升25%高于等距Roguelike游戏10%这可能是因为前者在训练分布中的代表性更强。同时通用型任务如战斗、导航从预训练中获益更多而游戏专属机制的提升相对有限说明 NitroGen 有效学习了可迁移的通用游戏技能但特定机制仍需针对性的下游训练。关键实验数据汇总实验场景任务类型从零训练NitroGen微调相对提升3D动作角色扮演30h数据战斗48.3%73.3%52%3D动作角色扮演30h数据导航48.0%60.0%25%3D动作角色扮演30h数据游戏专属63.3%66.6%5%等距Roguelike平均综合——10%四、动作提取技术细节图7 不同手柄家族上的解析性能。(a) 摇杆位置R²分数平均0.84(b) 按钮帧准确率平均0.96。动作提取流水线的准确性直接影响后续策略训练的质量。如前文所述该流水线包含模板匹配、分割解析与质量过滤三个阶段。在模板匹配阶段系统从每段视频中采样25帧与约300个 curated 手柄模板进行特征匹配要求至少20个内点方可视为有效匹配。匹配成功后提取得分最高区域作为后续处理的手柄图像。分割解析阶段的核心是 SegFormer 模型。该模型以连续两帧拼接图像为输入输出两类预测摇杆位置采用11×11离散网格上的分割掩码表示按钮状态则采用二分类。论文提到通过分割掩码估计摇杆位置显著优于直接回归坐标。在推理阶段系统通过检测整个视频中的摇杆轮廓来计算精确位置首先对所有帧中分类为居中的摇杆位置取平均建立中心基准随后利用整个视频中绝对x、y值的99百分位数进行归一化将摇杆坐标映射到[-1.0, 1.0]范围以降低异常值影响。如图7所示该解析流程在 Xbox One、Xbox 360、Xbox Series X、PS3、PS4、PS5 等主流手柄家族上均保持了较高精度。摇杆位置R²分数在 Xbox One 上达到0.92在 PS5 上为0.77整体平均0.84按钮帧准确率在各家族上普遍超过0.91整体平均0.96。这一结果表明尽管不同创作者使用的手柄类型、叠加层透明度和视频压缩伪影差异显著自动化提取流程仍具备可靠的跨设备泛化能力。五、开源生态与未来方向NitroGen 研究团队同步开源了数据集、通用模拟器评测套件与预训练模型权重旨在降低新环境下训练游戏智能体的门槛为算法创新、架构改进与应用拓展提供基础资源。这一开源策略与近年来机器人领域 Open X-Embodiment、Aloha 等数据集的发布理念一脉相承有望催化游戏智能体领域的协同研究。论文也坦诚讨论了当前版本的局限与未来拓展空间。在模型能力层面NitroGen 目前属于快速反应的感觉运动型System-1模型尚未具备长程规划与语言指令跟随能力。研究团队明确将 NitroGen 定位为未来通用智能体开发的基石后续可通过后训练引入语言条件与强化学习以增强规划能力并提升复杂任务的成功率。在数据层面当前数据集自然偏向使用手柄操作的动作类游戏键盘主导的策略或模拟类游戏覆盖不足这可能限制智能体向依赖复杂规划与键盘精细操作的类型泛化。未来的数据收集策略可进一步拓展游戏类型与输入模态的多样性。从更宏观的视角看NitroGen 为具身智能研究提供了一条可扩展的数据获取路径。游戏视频作为人类决策与操作行为的丰富记录其潜在价值远未被充分挖掘。通过自动化的动作提取与标准化接口封装这类公开数据有望支撑起类似于视觉与语言领域互联网预训练的规模效应加速通用具身智能体的研究进程。具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html