CVPR‘26 Oral开源 | VGGT团队重磅VGGT-Ω：革新三维重建和位姿估计，精度暴涨77%

发布时间：2026/5/19 12:26:00

点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入论文信息标题VGGT-Ω作者Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, Piotr Bojanowski, David Novotny, Andrea Vedaldi, Christian Rupprecht机构Visual Geometry Group, University of Oxford、Meta AI原文链接https://vggt-omega.github.io/assets/paper/preview_v3.pdf代码链接https://vggt-omega.github.io/导读近年来出现的基于前馈机制的重建模型比如VGGT已经证明其性能可与传统的基于优化方法的重建技术相媲美。此外这些模型还具备能够识别几何特征的能力从而有助于处理其他相关任务。在这里我们证明了这些模型的性能会随着模型规模和数据量的增加而提升。为此我们推出了VGGT-Ω模型该模型显著提升了静态场景和动态场景的重建精度、效率以及处理能力。为了实现大规模训练我们对模型架构进行了改进提升了训练效率同时我们还开发了一套适用于动态场景的高质量数据标注流程并采用了自监督学习方法来辅助训练。我们通过采用单一的密集型预测单元并结合多任务训练方式来简化VGGT的架构同时去掉了那些计算成本高昂的高分辨率卷积层。我们还利用“寄存器”来整合场景信息将其转化为简洁的形式。此外我们引入了“寄存器注意力机制”将帧与帧之间的信息传递限制在这些寄存器内从而在一定程度上替代了全局注意力机制的作用。这样一来在训练过程中VGGT-Ω所消耗的GPU内存仅为前代模型的约30%。这使得我们可以使用比以往多15倍的标注数据来训练VGGT-Ω进而充分利用大量未标注的视频数据。在多个基准测试中VGGT-Ω在静态和动态场景的重建方面取得了出色的成绩。例如在Sintel测试中其相机估计精度比之前的最佳成果提高了77%。我们还发现通过学习得到的“寄存器”有助于提升视觉-语言-动作模型的性能同时也有助于实现与语言的更好融合。由此可见场景重建作为一种有效的任务能够助力我们对空间结构进行深入理解。效果展示定性结果。VGGT-2既能处理静态内容也能处理动态内容。每个示例均使用了64、4、9、16和32个输入帧。中可见一斑。无论是静态场景的重建、动态动作的捕捉、空中/第一人称视角下的飞行画面、室内环境的呈现还是水下场景的再现都能轻松实现。引言近期研究表明前馈重建模型在许多情况下能够媲美甚至超越传统的运动恢复结构SfM流程。此外这类模型学到的标记token已被用作许多其他任务中有效的几何感知表示。这表明重建可以作为学习对空间理解有用的表示的代理任务具有基础性价值。然而与规模的作用已被充分理解的基础模型相比这一点在3D计算机视觉中探索较少。因此在本文中我们探究前馈重建模型是否能够规模化扩展以及这种扩展带来的益处。为了回答这个问题我们提出了VGGT-Ω将前馈重建扩展到比先前工作显著更大的数据和可选的模型规模。与VGGT相比新模型引入了一系列架构改进首先是对寄存器的使用方式。近期工作指出视觉TransformerViT会自发地利用少量图像标记来承载全局信息并引入了可学习的寄存器以更直接、高效地实现这一点。虽然VGGT已经拥有每帧的寄存器但VGGT-Ω进一步引入了寄存器注意力在全局注意力层的一个子集中帧之间的信息交换仅限于寄存器。然后更新后的寄存器在帧注意力层内与局部其他标记交互从而形成一个瓶颈用于聚合和重新分配多帧信息。这种设计鼓励寄存器聚合关于整个场景的信息我们也将其称为“场景”标记。这种设计有两个好处。第一在其他架构中寄存器通常被视为辅助性的并在推理时被丢弃而我们相反地证明它们携带有用的全局信息。特别地尽管没有显式监督它们仍能为视觉-语言-动作VLA模型和语言对齐提供有用的特征。第二寄存器注意力也提高了效率。全局注意力是VGGT中的主要计算瓶颈但其注意力图非常稀疏。我们发现寄存器注意力通过聚合全局信息也可以作为完全全局注意力的有效替代。具体而言将25%的全局注意力层替换为寄存器注意力不会导致可测量的性能下降同时在训练期间为骨干网络节省约23%的FLOPs和16%的内存¹。除了寄存器我们还注意到密集预测头例如DPT中的高分辨率卷积层消耗了不成比例的GPU内存来存储前向激活尽管它们只占模型参数的一小部分。像FSDP或梯度检查点等技术无法消除存储这些激活的成本。因此我们的第二个改变是将密集预测器中内存最密集的卷积层替换为一个单层MLP后跟一个像素重排操作。这在定量和定性上都能以很少的内存使用实现无性能下降。最后在VGGT中我们展示了多任务训练直接监督深度图、点图、跟踪特征是有益的。在这里我们发现实现这些益处不需要额外的密集头。我们的第三个改变是仍然使用多任务损失但仅保留一个用于深度预测的密集头和一个用于相机预测的稀疏头。这三个改变在训练期间节省了70%的GPU内存并适度提高了推理速度。除了效率我们还发现训练数据的数量、多样性和质量对规模化至关重要。特别是处理动态内容是必不可少的因为它可以解锁数量级更大的类似互联网的视频用于训练。因此我们开发了一个高质量的数据标注流程能够大规模地为刚性和动态视频生成标注。该流程集成了基于VLM的预过滤、VGGT、COLMAP、现代图像匹配模型以及有监督的几何后过滤。将该过滤流程应用于约4000万个内部互联网风格的视频保留了80万个具有精确标注的序列其中约三分之一包含动态内容。结合现有的数据集包括真实和合成数据总共得到400万个具有精确重建标注的多样化场景/序列是VGGT的15倍以上。为了进一步提高泛化能力我们引入了一个受DINO和相关动量师生方法启发的自监督学习协议。我们维护从有监督的VGGT-Ω检查点初始化的教师和学生模型。两个模型在相同的输入序列上处理但采用不同的增强和帧排列。学生模型被训练为匹配教师模型的预测和特征分布在对齐帧顺序之后而教师模型通过学生的指数移动平均进行更新。我们使用该协议在1800万个无标签视频上进行训练。这些改进使我们能够研究前馈重建模型的规模化特性。如图1所示我们观察到当我们将模型容量从0.2B参数增加到10B参数并将训练数据从几千个扩展到两百万个不同序列时重建精度以点误差衡量呈现出一致的幂律式改进。主要贡献总体而言VGGT-Ω带来了前馈重建性能的新水平在三个静态和三个动态基准测试中以显著优势取得了最先进的结果。特别是它大幅超越了后优化方法如MegaSaM和近期前馈方法如Depth Anything 3。在Sintel上对于相机估计VGGT-Ω达到了AUC3°为40.0对比22.5提升77%AUC30°为79.1对比58.3提升35%对于深度估计δ1.25为93.5对比74.1提升26%同时速度比MegaSaM快50倍。最后我们展示了学到的寄存器可以超越重建任务被重用改进VLA模型并支持与语言对齐。方法VGGT-Ω将相机和场景标记寄存器附加到图像标记上然后在全局注意力或寄存器注意力层与帧注意力层之间交替进行。我们将VGGT中冗余的密集头替换为仅训练时的损失。实验结果我们将VGGT-Ω与近期方法进行比较i前馈重建模型和ii基于优化的动态重建方法。我们在三个静态数据集7 Scenes、NRGBD和ETH3D和三个动态数据集DyCheck、Sintel和TUM-Dynamic上进行评估。对于每个场景或序列我们随机采样10帧。所有方法均使用原始发布的模型。对于DA3我们使用其最大的变体Giant1B参数。我们报告相机姿态估计的标准AUC越高越好该值是相对旋转和平移误差低于角度阈值例如3°、30°的图像对比例曲线下的面积。如表1所示前馈模型在静态基准测试和较宽松的阈值下通常表现出强劲性能而基于优化的、动态感知的MegaSaM在具有挑战性的动态序列如Sintel上更具竞争力但在宽基线或低纹理场景中性能下降。相比之下我们的模型在静态和动态数据集上、在严格和宽松阈值下均一致优于所有基线。我们还使用绝对相对误差AbsRel越低越好和δ1.25越高越好评估预测深度的精度后者衡量预测深度与真实深度之比在指定阈值内的像素百分比。如表2所示我们的模型在静态基准测试中优于基线在现有方法表现强劲的数据集如ETH3D上进一步降低了AbsRel在动态场景中更是如此降低了深度误差并提高了δ1.25例如在Sintel上δ1.25从86.1提升到93.5AbsRel从0.118降至0.081。更大的10B变体一致优于1B模型表明扩展重建模型直接有利于相机和深度精度。总结未来工作我们提出了VGGT-Ω一个在静态和动态基准测试上均取得强劲结果的前馈重建模型。我们在架构、数据和训练方面改进了原始VGGT引入了寄存器注意力使用了带多任务损失的单一密集预测头一个处理动态内容的大规模标注流程以及一个利用海量无标签视频的自监督训练协议。这些要素使我们能够以前所未有的规模训练模型。实验发现VGGT-Ω随着模型容量和数据规模呈现可预测的缩放规律。超越几何领域我们发现学到的寄存器携带有用的全局信息改进了VLA模型并支持与语言对齐。我们希望VGGT-Ω能成为社区构建的有用基础。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。

魔兽争霸3的现代重生：如何让经典游戏在你的电脑上焕发新生

魔兽争霸3的现代重生：如何让经典游戏在你的电脑上焕发新生【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还记得那个充满激情的年代…

2026/5/19 12:25:19 阅读更多

如何用Python轻松管理百度网盘：baidupcsapi终极指南

如何用Python轻松管理百度网盘：baidupcsapi终极指南【免费下载链接】baidupcsapi 百度网盘api 项目地址: https://gitcode.com/gh_mirrors/ba/baidupcsapi 想在Python中轻松管理你的百度网盘文件吗？baidupcsapi就是你的最佳选择！这个…

2026/5/19 12:24:18 阅读更多

手把手教你用Python把文心一言4.0（ERNIE-Bot-4）变成你的本地聊天机器人（附完整代码）

从API到桌面：用Python打造文心一言4.0的智能对话终端在人工智能技术快速发展的今天，大语言模型已经不再是遥不可及的实验室产品。文心一言4.0（ERNIE-Bot-4）作为国内领先的对话模型，其强大的自然语言处理能力可以通过简…

2026/5/19 12:24:18 阅读更多

【MATLAB】工业现场振动信号滤波与特征提取实操

【MATLAB】工业现场振动信号滤波与特征提取实操摘要：工业现场振动信号是设备健康状态监测、故障诊断的核心数据源，但其易受机械噪声、电磁干扰、环境扰动等影响，存在信号失真、有用信息被掩盖等问题，直接影响故障诊断的准确性与可靠性。滤波处理可有效剔除冗余干扰、保留…

2026/5/19 13:03:20 阅读更多

3步打造你的专属数字工作台：告别Obsidian启动迷茫

3步打造你的专属数字工作台：告别Obsidian启动迷茫【免费下载链接】obsidian-homepage Obsidian homepage - Minimal and aesthetic template (with my unique features) 项目地址: https://gitcode.com/gh_mirrors/obs/obsidian-homepage 你是否每次打开Obs…

2026/5/19 13:03:20 阅读更多

New API技术深度解析：构建企业级AI模型聚合网关的架构设计与实施路径

New API技术深度解析：构建企业级AI模型聚合网关的架构设计与实施路径【免费下载链接】new-api A unified AI model hub for aggregation & distribution. It supports cross-converting various LLMs into OpenAI-compatible, Claude-compatible, or Gemini-co…

2026/5/19 13:02:59 阅读更多

QQ音乐解析工具终极指南：如何免费构建个人音乐库

QQ音乐解析工具终极指南：如何免费构建个人音乐库【免费下载链接】MCQTSS_QQMusic QQ音乐解析项目地址: https://gitcode.com/gh_mirrors/mc/MCQTSS_QQMusic 在音乐平台会员制度日益复杂的今天，你是否渴望拥有一个真正自由的音乐世界&#xff1f…

2026/5/19 13:02:59 阅读更多

别再为版本号头疼了！手把手教你搞定Windows上ChromeDriver与Chrome的版本匹配（附最新镜像源）

别再为版本号头疼了！手把手教你搞定Windows上ChromeDriver与Chrome的版本匹配每次启动Selenium脚本时看到SessionNotCreatedException报错，就像在高速公路上突然爆胎——明明昨天还能正常运行的自动化测试，今天就因为Chrome自动更新而彻底罢…

2026/5/19 13:02:17 阅读更多

点云配准避坑指南：从理论到代码，详解点到面ICP中法线计算的‘坑’与线性近似的前提

点云配准实战：深入解析点到面ICP算法中的法线计算与线性近似陷阱在三维重建和机器人定位领域，点云配准技术扮演着关键角色。当我们面对两个部分重叠的点云数据集时，如何精确地将它们对齐成为一个统一坐标系下的完整模型？迭代最近…

2026/5/19 13:02:17 阅读更多

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务【免费下载链接】biliTickerBuy b站会员购购票辅助工具项目地址: https://gitcode.com/GitHub_Trending/bi/biliTickerBuy biliTickerBuy是一款专为B站会员购平台设计的开源辅助工具&…

2026/5/19 0:00:10 阅读更多

一口气讲清楚 Monorepo、Turborepo、pnpm、Changesets 到底是什么？

你肯定遇到过这种情况：项目里同时有前端、后端、公共组件，放在一个仓库嫌乱，拆成多个仓库又改一个公共函数要在五个项目里各改一遍。于是出现了 Monorepo、Turborepo、pnpm、Changesets 这四个词。它们不是互相替代，而是分别解决工…

2026/5/19 0:00:31 阅读更多

从ok-skills项目解析技能树：设计理念、技术实现与工程实践

1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目，叫“ok-skills”。光看这个名字，可能有点摸不着头脑，但点进去一看，发现这是一个关于“技能树”或“知识图谱”的开源项目。简单来说，它试图用一种结构化的…

2026/5/19 0:01:12 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/19 4:14:12 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/19 0:56:48 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/19 0:13:34 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/19 0:00:02 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/18 19:34:27 阅读更多

相关文章