CVPR26最佳论文提名：NitroGen，面向通用游戏智能体的视觉-动作基础模型

发布时间：2026/6/6 23:57:00

NitroGen: An Open Foundation Model for Generalist Gaming Agents作者Loïc Magne, Anas Awadalla, Guanzhi Wang 等机构NVIDIA, Stanford, Caltech, UChicago, UT AustinarXiv: 2601.02427v1 [cs.CV] | 2026年1月核心摘要本文介绍 NitroGen一个面向通用游戏智能体的视觉-动作基础模型。该模型基于超过40,000小时、涵盖1,000余款游戏的互联网游戏视频进行训练通过自动提取玩家操作构建大规模视频-动作数据集。NitroGen 采用基于流匹配Flow Matching的统一视觉-动作架构在3D动作、2D平台跳跃、程序生成世界探索等多样化场景中展现出强劲能力。实验表明在未见过的游戏中进行微调时NitroGen 预训练权重可将任务成功率最高提升52%。研究团队同步开源了数据集、评测套件与模型权重为通用具身智能研究提供了重要的基础资源。一、研究背景通用游戏智能体的数据瓶颈构建能够在未知环境中自主行动的通用具身智能体长期以来被视为人工智能领域的核心目标之一。计算机视觉与自然语言处理领域已通过大规模预训练实现了显著的泛化能力然而具身智能的进展长期受限于缺乏大规模、多样化且带有动作标注的数据集。游戏环境因其视觉丰富、交互性强、任务复杂度跨度大成为推进具身智能研究的理想试验场。此前的主流技术路线面临各自局限。基于大语言模型LLM的方法通常依赖手工设计的程序接口访问游戏内部状态或需要复杂的感知模块提取文本信息强化学习在单个游戏中取得了超人类表现但智能体狭窄且训练成本高昂依赖专用模拟器基于像素观测的行为克隆方法则受限于昂贵的示范数据收集通常仅能覆盖少数几款游戏。这些限制使得开源的通用游戏智能体框架发展缓慢进而制约了整个领域的研究进度。针对上述挑战NVIDIA 联合斯坦福、加州理工等机构的研究团队提出了 NitroGen。该工作的核心思路是利用互联网上公开可获取的游戏视频资源通过自动化的动作提取构建互联网规模的数据集并在此之上训练统一的视觉-动作基础模型从而大幅降低开发通用游戏智能体的数据门槛。据论文介绍NitroGen 的数据集涵盖超过40,000小时游戏视频涉及1,000余款不同游戏是当前最大规模的公开游戏视频-动作数据集。二、NitroGen 三大核心贡献图1 NitroGen 整体架构概览。系统包含三大核心组件多游戏基础智能体中、通用模拟器左与互联网规模视频-动作数据集右。NitroGen 的系统架构围绕三个相互支撑的模块展开见图1。首先是互联网规模的视频-动作数据集研究团队提出了一种从公开游戏视频中自动提取玩家动作的新方法其次是多游戏评测套件包含10款商业游戏中的30项任务覆盖战斗、导航、平台跳跃、解谜等多样化挑战最后是基于大规模行为克隆训练的视觉-动作基础模型能够接收游戏画面输入并输出手柄控制信号。2.1 互联网规模视频-动作数据集构建训练通用游戏策略的核心难点在于恢复与视频对应的真实玩家动作。大多数游戏录制视频并不包含操作输入信息。NitroGen 团队发现了一类特殊的公开视频资源部分内容创作者在直播或录制时会使用输入叠加Input Overlay软件在屏幕角落实时显示手柄图像并以高亮方式展示当前按下的按钮和摇杆位置。这类视频原本多见于速通Speedrun社区但近年来已被广泛应用于各类动作游戏且覆盖了从休闲玩家到竞技选手的广泛技能层级。图2(a) 包含手柄叠加层的游戏视频示例。不同创作者使用的手柄类型、透明度和视觉风格差异显著。图2(b) 动作提取流水线。包含模板匹配定位、手柄区域裁剪、摇杆分割与按钮分类三个阶段。基于这一观察研究团队构建了包含71,000小时原始视频的数据池并设计了三阶段动作提取流水线见图2。第一阶段采用模板匹配利用约300种常见手柄模板通过 SIFT 与 XFeat 特征点在采样帧中进行关键点匹配定位屏幕中的手柄叠加区域。第二阶段使用微调后的 SegFormer 分割模型解析手柄状态模型接收连续两帧拼接图像以捕捉短期时序动态输出摇杆在11×11离散网格上的位置分割掩码以及按钮的二进制状态。第三阶段实施质量过滤仅保留动作密度较高的片段至少50%的时间步包含非零动作以避免模型过度预测空动作。为训练分割模型团队使用 Open Joystick Display、Input Overlay 和 GamePad Viewer 等软件合成了800万帧带标注数据并通过随机调整叠加层透明度、手柄尺寸和视频压缩参数来模拟真实世界的视觉扰动。论文报告显示该流水线在 Xbox、PlayStation 等主流手柄家族上取得了平均0.84的摇杆位置R²分数与0.96的按钮帧准确率见图5。图3 NitroGen 数据集分布。(a) 各游戏时长分布846款游戏拥有超过1小时数据15款游戏超过1,000小时(b) 类型分布动作角色扮演34.9%、平台跳跃18.4%与动作冒险9.2%占据主要份额。经过筛选最终数据集包含40,000小时视频覆盖1,000余款独特游戏来源于818位不同创作者。从类型分布看见图3动作角色扮演类游戏占比最高34.9%其次为平台跳跃18.4%与动作冒险9.2%其余份额分布于体育、竞速、Roguelike、格斗等九种类型。846款游戏拥有超过1小时的数据量91款超过100小时15款超过1,000小时展现出良好的长尾覆盖特性。2.2 多游戏评测套件与通用模拟器为评估智能体在真实场景中的泛化能力研究团队设计了一个包含10款商业游戏、30项任务的基准环境。评测任务分为三类11项战斗任务Boss战、敌人遭遇、10项导航任务到达特定位置、穿越环境以及9项游戏专属任务特定机制操作。其中五款为2D游戏三款横版卷轴、两款俯视角Roguelike五款为3D游戏两款开放世界、两款动作角色扮演、一款体育游戏。图4 NitroGen 在多样化2D与3D环境中的任务执行示例。任务时长从数秒到数分钟不等部分需要记忆部分在程序生成的世界中完成。为实现对任意商业游戏的程序化控制团队开发了通用模拟器Universal Simulator。该工具通过拦截游戏引擎的系统时钟来控制模拟时间实现逐帧交互无需修改游戏代码即可适配任何基于系统时钟驱动物理与交互逻辑的游戏标题。研究团队将这一接口封装为标准的 Gymnasium API便于开发者以统一方式测试不同游戏中的智能体能力。观测空间为单帧RGB图像动作空间则统一为16维二进制按钮向量方向键、面部键、肩键、扳机键、摇杆按下、开始/返回键加上4维连续摇杆位置向量。这种跨游戏的统一动作布局直接支持策略在不同游戏间的迁移。2.3 视觉-动作基础模型架构NitroGen 的模型架构借鉴了机器人领域最新的流匹配生成建模技术并基于 GR00T N1 进行适配改造。模型接收256×256分辨率的RGB输入使用 SigLIP 2 视觉Transformer进行编码每帧生成256个图像Token。动作生成采用扩散TransformerDiT通过流匹配Flow Matching目标生成16步长的未来动作片段。具体而言噪声动作片段首先经MLP编码为每时间步一个动作Token随后通过多个DiT块处理块内交替使用自注意力与交叉注意力层交叉注意力层将动作生成条件化于编码后的图像Token。最终动作Token经独立MLP解码为连续动作向量。在架构设计选择上研究团队发现使用单帧上下文即可取得良好效果增加历史帧并未带来额外收益。这可能是因为动作游戏的初始画面通常已包含足够的行为上下文。模型采用单帧上下文生成16步动作块相比单步生成显著提升了时间一致性。训练采用标准的条件流匹配目标推理时执行16步去噪的欧拉积分。训练过程中应用了随机亮度、对比度、饱和度、色调调整、±5度旋转及随机裁剪等图像增强策略采用 AdamW 优化器与WSDWarmup-Stable-Decay学习率调度并维持指数移动平均EMA权重。三、实验验证与结果分析3.1 预训练模型的跨游戏表现研究团队在完整数据集上训练了单一模型。在未针对特定游戏进行微调的情况下NitroGen 在多款游戏和任务上已展现出非平凡的成功率。如图6所示模型在3D、2D俯视角和2D横版卷轴等不同视觉风格以及平台跳跃、动作角色扮演、Roguelike等多种类型中均表现出稳定的任务完成能力。图5 NitroGen 500M参数模型预训练结果。在未针对特定游戏微调的情况下模型在3D、2D俯视角、2D横版卷轴游戏中均展现出非平凡的任务完成率。值得注意的是模型在可记忆任务固定关卡布局与需要零样本泛化的任务程序生成关卡之间并未出现显著性能差异表明 NitroGen 既能利用训练记忆中的知识也能适应未见过的场景配置。这一结果验证了仅使用含噪的互联网数据训练稳健多游戏策略的可行性。论文指出数据中的噪声来源包括输入叠加软件引入的微小延迟、解析过程带来的不精确性、视频帧中常见的创作者专属元素如直播聊天框、订阅提示、进度追踪器以及不同玩家间控制器灵敏度与自定义按键映射的差异。尽管存在这些挑战大规模预训练仍成功产出了具有鲁棒性的跨游戏策略。3.2 微调迁移预训练的价值验证为验证预训练对下游任务的增益研究团队设计了留一法实验在完整数据集上预训练 NitroGen但排除某一款特定游戏随后使用有限数据在该保留游戏上微调预训练模型并与从零开始、使用相同架构和相同数据量训练的模型进行对比。实验覆盖了两款具有代表性的游戏一款等距视角Roguelike游戏和一款3D动作角色扮演游戏。图6 后训练实验在未见环境中基于 NitroGen 预训练权重的微调模型显著优于从零训练模型。(a) 数据量变化下的等距Roguelike游戏(b) 30小时低数据场景下的3D动作角色扮演游戏按任务类型划分。结果如图7所示。在等距Roguelike游戏中随着微调数据量从60小时增加到240小时基于预训练的模型任务完成率持续领先平均相对提升约10%。在3D动作角色扮演游戏的低数据场景30小时中预训练带来的增益更为显著战斗类任务完成率从48.3%提升至73.3%相对提升达52%导航类任务从48.0%提升至60.0%游戏专属任务从63.3%提升至66.6%。论文分析指出预训练收益在不同游戏类型与任务类别间存在差异。3D动作角色扮演游戏的平均相对提升25%高于等距Roguelike游戏10%这可能是因为前者在训练分布中的代表性更强。同时通用型任务如战斗、导航从预训练中获益更多而游戏专属机制的提升相对有限说明 NitroGen 有效学习了可迁移的通用游戏技能但特定机制仍需针对性的下游训练。关键实验数据汇总实验场景任务类型从零训练NitroGen微调相对提升3D动作角色扮演30h数据战斗48.3%73.3%52%3D动作角色扮演30h数据导航48.0%60.0%25%3D动作角色扮演30h数据游戏专属63.3%66.6%5%等距Roguelike平均综合——10%四、动作提取技术细节图7 不同手柄家族上的解析性能。(a) 摇杆位置R²分数平均0.84(b) 按钮帧准确率平均0.96。动作提取流水线的准确性直接影响后续策略训练的质量。如前文所述该流水线包含模板匹配、分割解析与质量过滤三个阶段。在模板匹配阶段系统从每段视频中采样25帧与约300个 curated 手柄模板进行特征匹配要求至少20个内点方可视为有效匹配。匹配成功后提取得分最高区域作为后续处理的手柄图像。分割解析阶段的核心是 SegFormer 模型。该模型以连续两帧拼接图像为输入输出两类预测摇杆位置采用11×11离散网格上的分割掩码表示按钮状态则采用二分类。论文提到通过分割掩码估计摇杆位置显著优于直接回归坐标。在推理阶段系统通过检测整个视频中的摇杆轮廓来计算精确位置首先对所有帧中分类为居中的摇杆位置取平均建立中心基准随后利用整个视频中绝对x、y值的99百分位数进行归一化将摇杆坐标映射到[-1.0, 1.0]范围以降低异常值影响。如图7所示该解析流程在 Xbox One、Xbox 360、Xbox Series X、PS3、PS4、PS5 等主流手柄家族上均保持了较高精度。摇杆位置R²分数在 Xbox One 上达到0.92在 PS5 上为0.77整体平均0.84按钮帧准确率在各家族上普遍超过0.91整体平均0.96。这一结果表明尽管不同创作者使用的手柄类型、叠加层透明度和视频压缩伪影差异显著自动化提取流程仍具备可靠的跨设备泛化能力。五、开源生态与未来方向NitroGen 研究团队同步开源了数据集、通用模拟器评测套件与预训练模型权重旨在降低新环境下训练游戏智能体的门槛为算法创新、架构改进与应用拓展提供基础资源。这一开源策略与近年来机器人领域 Open X-Embodiment、Aloha 等数据集的发布理念一脉相承有望催化游戏智能体领域的协同研究。论文也坦诚讨论了当前版本的局限与未来拓展空间。在模型能力层面NitroGen 目前属于快速反应的感觉运动型System-1模型尚未具备长程规划与语言指令跟随能力。研究团队明确将 NitroGen 定位为未来通用智能体开发的基石后续可通过后训练引入语言条件与强化学习以增强规划能力并提升复杂任务的成功率。在数据层面当前数据集自然偏向使用手柄操作的动作类游戏键盘主导的策略或模拟类游戏覆盖不足这可能限制智能体向依赖复杂规划与键盘精细操作的类型泛化。未来的数据收集策略可进一步拓展游戏类型与输入模态的多样性。从更宏观的视角看NitroGen 为具身智能研究提供了一条可扩展的数据获取路径。游戏视频作为人类决策与操作行为的丰富记录其潜在价值远未被充分挖掘。通过自动化的动作提取与标准化接口封装这类公开数据有望支撑起类似于视觉与语言领域互联网预训练的规模效应加速通用具身智能体的研究进程。具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html

WarcraftHelper终极指南：5分钟让魔兽争霸III完美适配现代电脑

WarcraftHelper终极指南：5分钟让魔兽争霸III完美适配现代电脑【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 魔兽争霸III作为一代经典RTS…

2026/6/6 23:56:40 阅读更多

构建企业级IT服务管理平台：iTop架构深度解析与实施指南

构建企业级IT服务管理平台：iTop架构深度解析与实施指南【免费下载链接】iTop A simple, web based CMDB & IT Service Management tool 项目地址: https://gitcode.com/gh_mirrors/it/iTop 在数字化时代，企业IT运维面临日益复杂的挑战&…

2026/6/6 23:56:19 阅读更多

E-Hentai画廊批量下载终极方案：三步实现高效自动化管理

E-Hentai画廊批量下载终极方案：三步实现高效自动化管理【免费下载链接】E-Hentai-Downloader Download E-Hentai archive as zip file 项目地址: https://gitcode.com/gh_mirrors/eh/E-Hentai-Downloader 在数字内容管理领域，自动化下载工具已成…

2026/6/6 23:56:19 阅读更多

OpenClaw v2026.5.28-beta.2 预发布解读：恢复能力、输入校验与覆盖范围扩展

🔥个人主页：杨利杰YJlio❄️个人专栏：《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》《Python》《Kali Linux》《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更…

2026/6/7 3:41:20 阅读更多

从Linux命令行到MinIO存储桶：一份给运维的mc命令对照手册（含实战脚本）

从Linux命令行到MinIO存储桶：运维高手的mc命令实战指南对于习惯在终端里挥洒自如的运维工程师来说，MinIO Client（mc）就像一把打开对象存储世界的瑞士军刀。当传统的ls、cp遇到云原生的存储桶概念，这份深度对照手册将带…

2026/6/7 3:41:20 阅读更多

揭秘CSDN后台埋点数据链路：如何从AI营销仪表盘直取真实卡片点击率（含URL参数级追踪路径）

更多请点击： https://codechina.net 第一章：CSDN AI 数字营销的引流卡片点击数据在哪里查看？ CSDN AI 数字营销平台为创作者提供了精细化的数据看板，其中引流卡片的点击行为是评估内容分发效果的核心指标之一。该数据不直接展示在…

2026/6/7 3:40:40 阅读更多

2026年将至，哪款手机阅读器性价比高？一文为你揭晓答案！

在如今这个信息爆炸的时代，阅读成为了许多人放松身心、获取知识的重要方式。而手机阅读器作为我们随时随地阅读的好帮手，其性能和体验至关重要。2026 年将至，如果你正在寻找一款高性价比的手机阅读器，那么 Kred 阅读器绝对值得你关…

2026/6/7 3:38:31 阅读更多

避坑指南：用ADIsimFrequencyPlanner规划你的小数分频PLL，远离整数边界杂散(IBS)

射频工程师实战手册：ADIsimFrequencyPlanner精准规避小数分频PLL的整数边界杂散陷阱在Wi-Fi 6E射频前端设计中，本地振荡器(LO)的相位噪声指标直接决定了系统吞吐量上限。去年参与某企业级AP项目时，团队曾因忽略整数边界杂散(IBS)导致整机EVM恶…

2026/6/7 3:37:30 阅读更多

避坑指南：Harbor在ARM架构（鲲鹏/麒麟）部署时，镜像拉取与权限配置的那些“雷”

ARM架构下Harbor部署的十大避雷指南：从镜像拉取到权限配置的深度解析在国产化技术浪潮中，ARM架构服务器正逐渐成为企业私有镜像仓库部署的主流选择。不同于x86环境的"开箱即用"，基于鲲鹏、麒麟等ARM平台的Harbor部署往往伴随着各种…

2026/6/7 3:37:10 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/7 0:02:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/7 0:03:38 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

2026/6/7 0:02:57 阅读更多

索引堆及其优化

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

2026/6/7 0:03:38 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/6 9:33:50 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/6 9:33:47 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/6 9:33:47 阅读更多

相关文章

WarcraftHelper终极指南：5分钟让魔兽争霸III完美适配现代电脑

构建企业级IT服务管理平台：iTop架构深度解析与实施指南

E-Hentai画廊批量下载终极方案：三步实现高效自动化管理

OpenClaw v2026.5.28-beta.2 预发布解读：恢复能力、输入校验与覆盖范围扩展

从Linux命令行到MinIO存储桶：一份给运维的mc命令对照手册（含实战脚本）

揭秘CSDN后台埋点数据链路：如何从AI营销仪表盘直取真实卡片点击率（含URL参数级追踪路径）

2026年将至，哪款手机阅读器性价比高？一文为你揭晓答案！

避坑指南：用ADIsimFrequencyPlanner规划你的小数分频PLL，远离整数边界杂散(IBS)

避坑指南：Harbor在ARM架构（鲲鹏/麒麟）部署时，镜像拉取与权限配置的那些“雷”

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因