2605.VGGT-Omega 论文解读: 3D重建的Scaling Law, Register Attention效率革命 | Oxford+Meta CVPR26 Oral

发布时间：2026/5/26 1:33:11

VGGT-Omega: Scaling Feed-Forward 3D ReconstructionJianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schonberger, et al.Visual Geometry Group, Oxford Meta AI | CVPR 2026 Oral | arXiv 2605.15195Paper | Project Page一句话总结VGGT-Omega 是 VGGT 的大规模升级版通过Register Attention、简化预测头和自监督训练将训练显存降至前作的 30%从而支持15 倍数据规模和10B 参数模型。首次证明 3D 重建模型存在类似 LLM 的幂律 Scaling Law在 Sintel 相机估计上提升 77%CVPR 2026 Oral。核心问题前馈式 3D 重建模型如 VGGT、DUSt3R、MASt3R已证明可以媲美传统优化方法COLMAP同时提供可复用的几何感知特征。但一个关键问题未被回答这类模型能否像 LLM 那样从规模扩大中持续获益如果可以如何克服 GPU 显存瓶颈以训练更大模型、使用更多数据VGGT 的全局注意力机制是 O(N^2) 的显存和计算瓶颈DPT 卷积头占据大量中间激活显存多个密集预测头进一步加剧问题。为什么选 Register Attention方案优势劣势Full Global Attention (VGGT)所有 Token 可跨帧交互O(N^2) 显存/计算注意力图实际很稀疏Token Merging / Sparse Attention减少 Token 数量可能丢失关键细节信息Register Attention (本文)仅 16 个 Register 跨帧交互无性能损失全替换会降质保留 25% 全局层为最优关键发现全局注意力图实际非常稀疏Fig 3只有极少数 Token 真正参与跨帧信息交换。Register 正是这些 Token 的显式化版本。整体框架图2VGGT-Omega 架构。每帧添加 Camera Token 16 个 Scene Token (Register)交替进行全局/Register 注意力和帧内注意力。密集预测头简化为 MLP Pixel Shuffle。三大架构改进Register Attention25% 的全局注意力层替换为 Register-only 注意力仅 Register 跨帧通信节省 23% FLOPs、16% 显存性能不降反升简化密集预测头移除 DPT 中的高分辨率卷积层改用 MLP Pixel Shuffle大幅节省显存单头多任务仅保留一个 Dense Head深度预测一个 Sparse Head相机参数用多任务 Loss 联合监督取代原来的多个独立头总效果训练显存降至 VGGT 的 ~30%推理速度提升 20-25%。Scaling Law3D 重建的幂律图1模型规模和数据规模的 Scaling 曲线。Point Error 随模型/数据增大呈幂律下降。维度范围Point Error 变化模型规模0.2B - 1B - 5B - 10B0.107 - 0.073 - 0.057 - 0.046数据规模2K - 100K - 1M - 2M 序列0.275 - 0.160 - 0.129 - 0.073核心发现3D 重建模型首次展现出类似 LLM 的幂律 Scaling 行为。数据和模型规模的持续扩大带来单调性能提升无明显饱和。方法详解训练损失$$\mathcal{L} \lambda_{\mathrm{cam}} \mathcal{L}_{\mathrm{cam}} \lambda_{\mathrm{depth}} \mathcal{L}_{\mathrm{depth}} \lambda_{\mathrm{point}} \mathcal{L}_{\mathrm{point}} \lambda_{\mathrm{match}} \mathcal{L}_{\mathrm{match}}$$Camera LossL1 损失比较预测和 GT 相机参数四元数旋转平移 FOVDepth Loss相对尺度深度梯度一致性不确定性估计Point Loss将深度反投影为 3D 点与 GT 点云对齐Matching Loss对比学习拉近对应 3D 位置的 Token 特征推开不对应的动态场景重建关键设计选择仅预测深度图和相机参数不显式建模运动。相机参数与场景运动天然解耦深度描述几何相机描述观测位姿避免引入昂贵的运动分割/光流输出模型通过大规模动态数据训练自动学习运动感知PCA 聚类能无监督分割运动物体数据标注流水线从40M 互联网视频出发VLM 过滤去除 50% 不可重建视频Grounding DINO 提取动态区域 Mask多方法特征匹配SIFT SuperPoint SuperGlue ALIKED LightGlueVGGT COLMAP 联合标注相机和深度多视图一致性 XGBoost 分类器过滤低质量样本最终产出0.8M 高质量标注序列200K 动态 600K 静态 3M 公开数据 4M 总量15x VGGT。自监督训练DINO 风格Teacher-Student 蒸馏在18M 无标注视频上训练Student梯度下降更新TeacherEMA 更新相同输入不同增强帧顺序打乱Student 匹配 Teacher 的特征分布 (L2) 预测 (camera, depth)Point Error 从 0.073 降至 0.070且泛化能力显著提升主要结果相机位姿估计方法7 Scenes (AUC3)Sintel (AUC3)DyCheck (AUC3)VGGT10.915.021.0MegaSaM10.622.526.8DA318.716.232.1VGGT-Omega 1B29.635.338.4VGGT-Omega 10B36.440.043.7Sintel AUC3: 22.5 - 40.0相对提升 77%。在所有静态和动态 Benchmark 上全面超越 VGGT、DA3、MegaSaM。深度估计方法Sintel delta1.25Sintel AbsRelETH3D delta1.25MegaSaM74.10.20794.8DA386.10.11899.6VGGT-Omega 1B89.50.09799.8VGGT-Omega 10B93.50.08199.8推理效率图7单张 80GB A100 上的显存和速度对比。VGGT-Omega 可处理 1000 帧而不 OOMDA3 在 ~750 帧即耗尽显存。Register Token 下游应用方法Spatial SR%Object SR%Goal SR%Average SR%OpenVLA-OFT97.698.497.997.1 Frozen Scene Tokens99.399.299.098.5冻结的 VGGT-Omega Register Token 作为即插即用几何特征直接提升 VLA 机器人操控性能。语言对齐Register Token 通过 CLIP 风格对比学习可与文本对齐Top-1 检索准确率 76.8%零样本 47.5%。证明重建学到的 Register 携带高层语义信息。核心创新点创新类型说明Register Attention全新机制限制跨帧信息仅通过 Register 交换23% FLOPs 节省无性能损失3D 重建 Scaling Law全新发现首次证明前馈重建模型存在幂律 ScalingRegister 复用于 VLA/语言全新应用重建作为空间理解的 Proxy TaskRegister 是天然的场景表征MLPPixelShuffle 替代 DPT工程改进大幅节省显存定性略有 blocky artifacts 但指标相当40M 视频标注流水线工程系统VLM 过滤 COLMAP 分类器产出 0.8M 高质量动态场景标注局限性与展望标注依赖优化数据流水线仍需 COLMAP 迭代优化非全端到端可扩展10B 模型推理成本论文未报告实时性指标10B 模型部署可行性存疑自监督增益有限Point Error 仅从 0.073 降至 0.070当前协议可能次优MLP 头 Blocky Artifacts深度图中出现块状伪影尤其室外远距离场景保留浅卷积层作为折衷内部数据不公开40M 视频集合为 Meta 内部数据社区无法完全复现动态建模隐式不显式建模运动/光流难以用于需要逐像素运动估计的下游任务总结VGGT-Omega 的核心贡献在于首次证明 3D 重建模型遵循幂律 Scaling Law并通过 Register Attention 等架构改进使大规模训练成为可能。更深远的启示是重建即空间理解的 Pretraining这一范式 -- Register Token 无需微调即可提升 VLA 性能、对齐语言暗示 3D 几何重建可能是通往通用空间智能的 Proxy Task。作为 CVPR 2026 Oral这篇论文对 3D 视觉、机器人、自动驾驶等领域都有深远影响。

Windows 10/11系统下，SecureCRT 8.7.2保姆级安装与激活图文指南（含Keygen使用避坑点）

Windows平台SecureCRT 8.7.2全流程部署与安全配置指南在当今远程运维与网络管理的日常工作中，一款可靠的终端仿真工具如同工程师的瑞士军刀。作为行业标杆的SecureCRT，其8.7.2版本在Windows 10/11环境下的部署却常让新手陷入各种技术陷阱——从安装路径选…

2026/5/26 1:33:11 阅读更多

第一篇：《Docker 是什么？为什么它改变了软件交付》

在软件开发领域，“环境不一致”导致的问题几乎每天都在上演：开发环境跑得好好的，到了测试环境就报错；运维部署时发现缺少某个依赖……Docker 的出现，用一种轻量、标准化的方式解决了这个世纪难题。本文将带你认识 Dock…

2026/5/26 1:32:11 阅读更多

Unity中型团队游戏开发加速器：框架、动画、渲染与UI深度优化指南

1. 这不是“插件包”，而是一套可即插即用的游戏开发加速器Unity插件合集（二十四）——这个标题乍看平平无奇，像极了资源商店里那些堆砌关键词的营销文案。但如果你真把它当成“下载解压就完事”的工具箱，大概率会在两周…

2026/5/26 1:32:11 阅读更多

【昇腾CANN】changelog自动化：用脚本省掉80%的版本记录工作

每次发版前最烦人的事情是什么？写 changelog。翻一个月的 commit history，对着一堆 fix typo、update readme、wip、asdf 这样的 commit message，欲言又止。 release-management 仓库里的 changelog 自动化模块，解决的就是这个问题…

2026/5/26 2:34:20 阅读更多

Sora 2商用红线预警：版权溯源链构建指南（含AI生成视频DCI数字版权登记全流程）

更多请点击： https://codechina.net 第一章：Sora 2商用红线预警与版权合规总览 Sora 2作为新一代生成式视频模型，在商用落地过程中面临多重法律与伦理边界约束。其核心风险集中于训练数据来源合法性、生成内容权属归属、以及商业使用场景下的…

2026/5/26 2:33:19 阅读更多

51单片机驱动ST7735S彩屏避坑指南：从5秒刷屏到流畅贪吃蛇的优化实战

51单片机驱动ST7735S彩屏性能优化实战：从卡顿到流畅游戏的蜕变之路当一块128x160分辨率的ST7735S彩屏遇上传统的51单片机，这种组合看似矛盾却又充满挑战。许多开发者初次尝试时会发现，原本在STM32等平台上运行流畅的显示驱动，移植…

2026/5/26 2:30:57 阅读更多

工业控制系统（ICS/OT）网络安全架构

工控安全总体架构设计：深入剖析了IT与OT融合带来的挑战，并基于普渡模型（Purdue Model）详细阐述了Level 0至Level 5的安全区域划分与通信管道隔离原则。核心产品线及部署规范：详细介绍了五大关键安全产品（工…

2026/5/26 2:29:56 阅读更多

番茄小说下载器：你的终极离线阅读解决方案

番茄小说下载器：你的终极离线阅读解决方案【免费下载链接】fanqienovel-downloader 下载番茄小说项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 你是否曾经遇到过这样的烦恼？在地铁上信号不好，想看的番茄小说…

2026/5/26 2:29:36 阅读更多

AI写毕业论文初稿查重15%-45%？怎么选能同时降重降AI的工具

用AI生成毕业论文初稿早已是很多学生的刚需，随之而来的普遍痛点是初稿查重率卡在15%-45%、AIGC疑似率超50%，不管是知网、维普查重标红，还是AI检测出高风险，都可能直接影响答辩资格。2026年各大高校的检测算法全面升级，…

2026/5/26 2:29:36 阅读更多

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

文章目录前言一、那个让我怀疑AI成精的自动commit事件二、静态注入：Claude偷偷给模型塞的小纸条三、Skill工具：模型自己给自己发指令的自导自演四、动态注入：Skill集合变了怎么办？五、语义匹配注入：当Skill多到烧不起t…

2026/5/26 0:00:17 阅读更多

ssm高校普法系统（10101）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/26 0:01:18 阅读更多

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

强烈推荐的更好的阅读体验 Q1.Value Iteration 第一个问题是最基础的值迭代实现，这个问题没有什么难度，主要就是一边看着公式一遍敲代码复现。可以先回顾一下Note8中的Value Iteration框架.唯一唯一需要注意的就是需要使用的是batch版本，而…

2026/5/26 0:01:39 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/25 1:05:07 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/25 1:05:13 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/26 1:30:55 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/25 15:34:05 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/25 15:07:25 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/25 11:05:00 阅读更多

相关文章