VGGT-Omega: Scaling Feed-Forward 3D ReconstructionJianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schonberger, et al.Visual Geometry Group, Oxford Meta AI | CVPR 2026 Oral | arXiv 2605.15195Paper | Project Page一句话总结VGGT-Omega 是 VGGT 的大规模升级版通过Register Attention、简化预测头和自监督训练将训练显存降至前作的 30%从而支持15 倍数据规模和10B 参数模型。首次证明 3D 重建模型存在类似 LLM 的幂律 Scaling Law在 Sintel 相机估计上提升 77%CVPR 2026 Oral。核心问题前馈式 3D 重建模型如 VGGT、DUSt3R、MASt3R已证明可以媲美传统优化方法COLMAP同时提供可复用的几何感知特征。但一个关键问题未被回答这类模型能否像 LLM 那样从规模扩大中持续获益如果可以如何克服 GPU 显存瓶颈以训练更大模型、使用更多数据VGGT 的全局注意力机制是 O(N^2) 的显存和计算瓶颈DPT 卷积头占据大量中间激活显存多个密集预测头进一步加剧问题。为什么选 Register Attention方案优势劣势Full Global Attention (VGGT)所有 Token 可跨帧交互O(N^2) 显存/计算注意力图实际很稀疏Token Merging / Sparse Attention减少 Token 数量可能丢失关键细节信息Register Attention (本文)仅 16 个 Register 跨帧交互无性能损失全替换会降质保留 25% 全局层为最优关键发现全局注意力图实际非常稀疏Fig 3只有极少数 Token 真正参与跨帧信息交换。Register 正是这些 Token 的显式化版本。整体框架图2VGGT-Omega 架构。每帧添加 Camera Token 16 个 Scene Token (Register)交替进行全局/Register 注意力和帧内注意力。密集预测头简化为 MLP Pixel Shuffle。三大架构改进Register Attention25% 的全局注意力层替换为 Register-only 注意力仅 Register 跨帧通信节省 23% FLOPs、16% 显存性能不降反升简化密集预测头移除 DPT 中的高分辨率卷积层改用 MLP Pixel Shuffle大幅节省显存单头多任务仅保留一个 Dense Head深度预测 一个 Sparse Head相机参数用多任务 Loss 联合监督取代原来的多个独立头总效果训练显存降至 VGGT 的 ~30%推理速度提升 20-25%。Scaling Law3D 重建的幂律图1模型规模和数据规模的 Scaling 曲线。Point Error 随模型/数据增大呈幂律下降。维度范围Point Error 变化模型规模0.2B - 1B - 5B - 10B0.107 - 0.073 - 0.057 - 0.046数据规模2K - 100K - 1M - 2M 序列0.275 - 0.160 - 0.129 - 0.073核心发现3D 重建模型首次展现出类似 LLM 的幂律 Scaling 行为。数据和模型规模的持续扩大带来单调性能提升无明显饱和。方法详解训练损失$$\mathcal{L} \lambda_{\mathrm{cam}} \mathcal{L}_{\mathrm{cam}} \lambda_{\mathrm{depth}} \mathcal{L}_{\mathrm{depth}} \lambda_{\mathrm{point}} \mathcal{L}_{\mathrm{point}} \lambda_{\mathrm{match}} \mathcal{L}_{\mathrm{match}}$$Camera LossL1 损失比较预测和 GT 相机参数四元数旋转 平移 FOVDepth Loss相对尺度深度 梯度一致性 不确定性估计Point Loss将深度反投影为 3D 点与 GT 点云对齐Matching Loss对比学习拉近对应 3D 位置的 Token 特征推开不对应的动态场景重建关键设计选择仅预测深度图和相机参数不显式建模运动。相机参数与场景运动天然解耦深度描述几何相机描述观测位姿避免引入昂贵的运动分割/光流输出模型通过大规模动态数据训练自动学习运动感知PCA 聚类能无监督分割运动物体数据标注流水线从40M 互联网视频出发VLM 过滤去除 50% 不可重建视频Grounding DINO 提取动态区域 Mask多方法特征匹配SIFT SuperPoint SuperGlue ALIKED LightGlueVGGT COLMAP 联合标注相机和深度多视图一致性 XGBoost 分类器过滤低质量样本最终产出0.8M 高质量标注序列200K 动态 600K 静态 3M 公开数据 4M 总量15x VGGT。自监督训练DINO 风格Teacher-Student 蒸馏在18M 无标注视频上训练Student梯度下降更新TeacherEMA 更新相同输入不同增强 帧顺序打乱Student 匹配 Teacher 的特征分布 (L2) 预测 (camera, depth)Point Error 从 0.073 降至 0.070且泛化能力显著提升主要结果相机位姿估计方法7 Scenes (AUC3)Sintel (AUC3)DyCheck (AUC3)VGGT10.915.021.0MegaSaM10.622.526.8DA318.716.232.1VGGT-Omega 1B29.635.338.4VGGT-Omega 10B36.440.043.7Sintel AUC3: 22.5 - 40.0相对提升 77%。在所有静态和动态 Benchmark 上全面超越 VGGT、DA3、MegaSaM。深度估计方法Sintel delta1.25Sintel AbsRelETH3D delta1.25MegaSaM74.10.20794.8DA386.10.11899.6VGGT-Omega 1B89.50.09799.8VGGT-Omega 10B93.50.08199.8推理效率图7单张 80GB A100 上的显存和速度对比。VGGT-Omega 可处理 1000 帧而不 OOMDA3 在 ~750 帧即耗尽显存。Register Token 下游应用方法Spatial SR%Object SR%Goal SR%Average SR%OpenVLA-OFT97.698.497.997.1 Frozen Scene Tokens99.399.299.098.5冻结的 VGGT-Omega Register Token 作为即插即用几何特征直接提升 VLA 机器人操控性能。语言对齐Register Token 通过 CLIP 风格对比学习可与文本对齐Top-1 检索准确率 76.8%零样本 47.5%。证明重建学到的 Register 携带高层语义信息。核心创新点创新类型说明Register Attention全新机制限制跨帧信息仅通过 Register 交换23% FLOPs 节省无性能损失3D 重建 Scaling Law全新发现首次证明前馈重建模型存在幂律 ScalingRegister 复用于 VLA/语言全新应用重建作为空间理解的 Proxy TaskRegister 是天然的场景表征MLPPixelShuffle 替代 DPT工程改进大幅节省显存定性略有 blocky artifacts 但指标相当40M 视频标注流水线工程系统VLM 过滤 COLMAP 分类器产出 0.8M 高质量动态场景标注局限性与展望标注依赖优化数据流水线仍需 COLMAP 迭代优化非全端到端可扩展10B 模型推理成本论文未报告实时性指标10B 模型部署可行性存疑自监督增益有限Point Error 仅从 0.073 降至 0.070当前协议可能次优MLP 头 Blocky Artifacts深度图中出现块状伪影尤其室外远距离场景保留浅卷积层作为折衷内部数据不公开40M 视频集合为 Meta 内部数据社区无法完全复现动态建模隐式不显式建模运动/光流难以用于需要逐像素运动估计的下游任务总结VGGT-Omega 的核心贡献在于首次证明 3D 重建模型遵循幂律 Scaling Law并通过 Register Attention 等架构改进使大规模训练成为可能。更深远的启示是重建即空间理解的 Pretraining这一范式 -- Register Token 无需微调即可提升 VLA 性能、对齐语言暗示 3D 几何重建可能是通往通用空间智能的 Proxy Task。作为 CVPR 2026 Oral这篇论文对 3D 视觉、机器人、自动驾驶等领域都有深远影响。
2605.VGGT-Omega 论文解读: 3D重建的Scaling Law, Register Attention效率革命 | Oxford+Meta CVPR26 Oral
发布时间:2026/5/26 1:33:11
VGGT-Omega: Scaling Feed-Forward 3D ReconstructionJianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schonberger, et al.Visual Geometry Group, Oxford Meta AI | CVPR 2026 Oral | arXiv 2605.15195Paper | Project Page一句话总结VGGT-Omega 是 VGGT 的大规模升级版通过Register Attention、简化预测头和自监督训练将训练显存降至前作的 30%从而支持15 倍数据规模和10B 参数模型。首次证明 3D 重建模型存在类似 LLM 的幂律 Scaling Law在 Sintel 相机估计上提升 77%CVPR 2026 Oral。核心问题前馈式 3D 重建模型如 VGGT、DUSt3R、MASt3R已证明可以媲美传统优化方法COLMAP同时提供可复用的几何感知特征。但一个关键问题未被回答这类模型能否像 LLM 那样从规模扩大中持续获益如果可以如何克服 GPU 显存瓶颈以训练更大模型、使用更多数据VGGT 的全局注意力机制是 O(N^2) 的显存和计算瓶颈DPT 卷积头占据大量中间激活显存多个密集预测头进一步加剧问题。为什么选 Register Attention方案优势劣势Full Global Attention (VGGT)所有 Token 可跨帧交互O(N^2) 显存/计算注意力图实际很稀疏Token Merging / Sparse Attention减少 Token 数量可能丢失关键细节信息Register Attention (本文)仅 16 个 Register 跨帧交互无性能损失全替换会降质保留 25% 全局层为最优关键发现全局注意力图实际非常稀疏Fig 3只有极少数 Token 真正参与跨帧信息交换。Register 正是这些 Token 的显式化版本。整体框架图2VGGT-Omega 架构。每帧添加 Camera Token 16 个 Scene Token (Register)交替进行全局/Register 注意力和帧内注意力。密集预测头简化为 MLP Pixel Shuffle。三大架构改进Register Attention25% 的全局注意力层替换为 Register-only 注意力仅 Register 跨帧通信节省 23% FLOPs、16% 显存性能不降反升简化密集预测头移除 DPT 中的高分辨率卷积层改用 MLP Pixel Shuffle大幅节省显存单头多任务仅保留一个 Dense Head深度预测 一个 Sparse Head相机参数用多任务 Loss 联合监督取代原来的多个独立头总效果训练显存降至 VGGT 的 ~30%推理速度提升 20-25%。Scaling Law3D 重建的幂律图1模型规模和数据规模的 Scaling 曲线。Point Error 随模型/数据增大呈幂律下降。维度范围Point Error 变化模型规模0.2B - 1B - 5B - 10B0.107 - 0.073 - 0.057 - 0.046数据规模2K - 100K - 1M - 2M 序列0.275 - 0.160 - 0.129 - 0.073核心发现3D 重建模型首次展现出类似 LLM 的幂律 Scaling 行为。数据和模型规模的持续扩大带来单调性能提升无明显饱和。方法详解训练损失$$\mathcal{L} \lambda_{\mathrm{cam}} \mathcal{L}_{\mathrm{cam}} \lambda_{\mathrm{depth}} \mathcal{L}_{\mathrm{depth}} \lambda_{\mathrm{point}} \mathcal{L}_{\mathrm{point}} \lambda_{\mathrm{match}} \mathcal{L}_{\mathrm{match}}$$Camera LossL1 损失比较预测和 GT 相机参数四元数旋转 平移 FOVDepth Loss相对尺度深度 梯度一致性 不确定性估计Point Loss将深度反投影为 3D 点与 GT 点云对齐Matching Loss对比学习拉近对应 3D 位置的 Token 特征推开不对应的动态场景重建关键设计选择仅预测深度图和相机参数不显式建模运动。相机参数与场景运动天然解耦深度描述几何相机描述观测位姿避免引入昂贵的运动分割/光流输出模型通过大规模动态数据训练自动学习运动感知PCA 聚类能无监督分割运动物体数据标注流水线从40M 互联网视频出发VLM 过滤去除 50% 不可重建视频Grounding DINO 提取动态区域 Mask多方法特征匹配SIFT SuperPoint SuperGlue ALIKED LightGlueVGGT COLMAP 联合标注相机和深度多视图一致性 XGBoost 分类器过滤低质量样本最终产出0.8M 高质量标注序列200K 动态 600K 静态 3M 公开数据 4M 总量15x VGGT。自监督训练DINO 风格Teacher-Student 蒸馏在18M 无标注视频上训练Student梯度下降更新TeacherEMA 更新相同输入不同增强 帧顺序打乱Student 匹配 Teacher 的特征分布 (L2) 预测 (camera, depth)Point Error 从 0.073 降至 0.070且泛化能力显著提升主要结果相机位姿估计方法7 Scenes (AUC3)Sintel (AUC3)DyCheck (AUC3)VGGT10.915.021.0MegaSaM10.622.526.8DA318.716.232.1VGGT-Omega 1B29.635.338.4VGGT-Omega 10B36.440.043.7Sintel AUC3: 22.5 - 40.0相对提升 77%。在所有静态和动态 Benchmark 上全面超越 VGGT、DA3、MegaSaM。深度估计方法Sintel delta1.25Sintel AbsRelETH3D delta1.25MegaSaM74.10.20794.8DA386.10.11899.6VGGT-Omega 1B89.50.09799.8VGGT-Omega 10B93.50.08199.8推理效率图7单张 80GB A100 上的显存和速度对比。VGGT-Omega 可处理 1000 帧而不 OOMDA3 在 ~750 帧即耗尽显存。Register Token 下游应用方法Spatial SR%Object SR%Goal SR%Average SR%OpenVLA-OFT97.698.497.997.1 Frozen Scene Tokens99.399.299.098.5冻结的 VGGT-Omega Register Token 作为即插即用几何特征直接提升 VLA 机器人操控性能。语言对齐Register Token 通过 CLIP 风格对比学习可与文本对齐Top-1 检索准确率 76.8%零样本 47.5%。证明重建学到的 Register 携带高层语义信息。核心创新点创新类型说明Register Attention全新机制限制跨帧信息仅通过 Register 交换23% FLOPs 节省无性能损失3D 重建 Scaling Law全新发现首次证明前馈重建模型存在幂律 ScalingRegister 复用于 VLA/语言全新应用重建作为空间理解的 Proxy TaskRegister 是天然的场景表征MLPPixelShuffle 替代 DPT工程改进大幅节省显存定性略有 blocky artifacts 但指标相当40M 视频标注流水线工程系统VLM 过滤 COLMAP 分类器产出 0.8M 高质量动态场景标注局限性与展望标注依赖优化数据流水线仍需 COLMAP 迭代优化非全端到端可扩展10B 模型推理成本论文未报告实时性指标10B 模型部署可行性存疑自监督增益有限Point Error 仅从 0.073 降至 0.070当前协议可能次优MLP 头 Blocky Artifacts深度图中出现块状伪影尤其室外远距离场景保留浅卷积层作为折衷内部数据不公开40M 视频集合为 Meta 内部数据社区无法完全复现动态建模隐式不显式建模运动/光流难以用于需要逐像素运动估计的下游任务总结VGGT-Omega 的核心贡献在于首次证明 3D 重建模型遵循幂律 Scaling Law并通过 Register Attention 等架构改进使大规模训练成为可能。更深远的启示是重建即空间理解的 Pretraining这一范式 -- Register Token 无需微调即可提升 VLA 性能、对齐语言暗示 3D 几何重建可能是通往通用空间智能的 Proxy Task。作为 CVPR 2026 Oral这篇论文对 3D 视觉、机器人、自动驾驶等领域都有深远影响。