点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入论文信息标题VGGT-Ω作者Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, Piotr Bojanowski, David Novotny, Andrea Vedaldi, Christian Rupprecht机构Visual Geometry Group, University of Oxford、Meta AI原文链接https://vggt-omega.github.io/assets/paper/preview_v3.pdf代码链接https://vggt-omega.github.io/导读近年来出现的基于前馈机制的重建模型比如VGGT已经证明其性能可与传统的基于优化方法的重建技术相媲美。此外这些模型还具备能够识别几何特征的能力从而有助于处理其他相关任务。在这里我们证明了这些模型的性能会随着模型规模和数据量的增加而提升。为此我们推出了VGGT-Ω模型该模型显著提升了静态场景和动态场景的重建精度、效率以及处理能力。为了实现大规模训练我们对模型架构进行了改进提升了训练效率同时我们还开发了一套适用于动态场景的高质量数据标注流程并采用了自监督学习方法来辅助训练。我们通过采用单一的密集型预测单元并结合多任务训练方式来简化VGGT的架构同时去掉了那些计算成本高昂的高分辨率卷积层。我们还利用“寄存器”来整合场景信息将其转化为简洁的形式。此外我们引入了“寄存器注意力机制”将帧与帧之间的信息传递限制在这些寄存器内从而在一定程度上替代了全局注意力机制的作用。这样一来在训练过程中VGGT-Ω所消耗的GPU内存仅为前代模型的约30%。这使得我们可以使用比以往多15倍的标注数据来训练VGGT-Ω进而充分利用大量未标注的视频数据。在多个基准测试中VGGT-Ω在静态和动态场景的重建方面取得了出色的成绩。例如在Sintel测试中其相机估计精度比之前的最佳成果提高了77%。我们还发现通过学习得到的“寄存器”有助于提升视觉-语言-动作模型的性能同时也有助于实现与语言的更好融合。由此可见场景重建作为一种有效的任务能够助力我们对空间结构进行深入理解。效果展示定性结果。VGGT-2既能处理静态内容也能处理动态内容。每个示例均使用了64、4、9、16和32个输入帧。中可见一斑。无论是静态场景的重建、动态动作的捕捉、空中/第一人称视角下的飞行画面、室内环境的呈现还是水下场景的再现都能轻松实现。引言近期研究表明前馈重建模型在许多情况下能够媲美甚至超越传统的运动恢复结构SfM流程。此外这类模型学到的标记token已被用作许多其他任务中有效的几何感知表示。这表明重建可以作为学习对空间理解有用的表示的代理任务具有基础性价值。然而与规模的作用已被充分理解的基础模型相比这一点在3D计算机视觉中探索较少。因此在本文中我们探究前馈重建模型是否能够规模化扩展以及这种扩展带来的益处。为了回答这个问题我们提出了VGGT-Ω将前馈重建扩展到比先前工作显著更大的数据和可选的模型规模。与VGGT相比新模型引入了一系列架构改进首先是对寄存器的使用方式。近期工作指出视觉TransformerViT会自发地利用少量图像标记来承载全局信息并引入了可学习的寄存器以更直接、高效地实现这一点。虽然VGGT已经拥有每帧的寄存器但VGGT-Ω进一步引入了寄存器注意力在全局注意力层的一个子集中帧之间的信息交换仅限于寄存器。然后更新后的寄存器在帧注意力层内与局部其他标记交互从而形成一个瓶颈用于聚合和重新分配多帧信息。这种设计鼓励寄存器聚合关于整个场景的信息我们也将其称为“场景”标记。这种设计有两个好处。第一在其他架构中寄存器通常被视为辅助性的并在推理时被丢弃而我们相反地证明它们携带有用的全局信息。特别地尽管没有显式监督它们仍能为视觉-语言-动作VLA模型和语言对齐提供有用的特征。第二寄存器注意力也提高了效率。全局注意力是VGGT中的主要计算瓶颈但其注意力图非常稀疏。我们发现寄存器注意力通过聚合全局信息也可以作为完全全局注意力的有效替代。具体而言将25%的全局注意力层替换为寄存器注意力不会导致可测量的性能下降同时在训练期间为骨干网络节省约23%的FLOPs和16%的内存¹。除了寄存器我们还注意到密集预测头例如DPT中的高分辨率卷积层消耗了不成比例的GPU内存来存储前向激活尽管它们只占模型参数的一小部分。像FSDP或梯度检查点等技术无法消除存储这些激活的成本。因此我们的第二个改变是将密集预测器中内存最密集的卷积层替换为一个单层MLP后跟一个像素重排操作。这在定量和定性上都能以很少的内存使用实现无性能下降。最后在VGGT中我们展示了多任务训练直接监督深度图、点图、跟踪特征是有益的。在这里我们发现实现这些益处不需要额外的密集头。我们的第三个改变是仍然使用多任务损失但仅保留一个用于深度预测的密集头和一个用于相机预测的稀疏头。这三个改变在训练期间节省了70%的GPU内存并适度提高了推理速度。除了效率我们还发现训练数据的数量、多样性和质量对规模化至关重要。特别是处理动态内容是必不可少的因为它可以解锁数量级更大的类似互联网的视频用于训练。因此我们开发了一个高质量的数据标注流程能够大规模地为刚性和动态视频生成标注。该流程集成了基于VLM的预过滤、VGGT、COLMAP、现代图像匹配模型以及有监督的几何后过滤。将该过滤流程应用于约4000万个内部互联网风格的视频保留了80万个具有精确标注的序列其中约三分之一包含动态内容。结合现有的数据集包括真实和合成数据总共得到400万个具有精确重建标注的多样化场景/序列是VGGT的15倍以上。为了进一步提高泛化能力我们引入了一个受DINO和相关动量师生方法启发的自监督学习协议。我们维护从有监督的VGGT-Ω检查点初始化的教师和学生模型。两个模型在相同的输入序列上处理但采用不同的增强和帧排列。学生模型被训练为匹配教师模型的预测和特征分布在对齐帧顺序之后而教师模型通过学生的指数移动平均进行更新。我们使用该协议在1800万个无标签视频上进行训练。这些改进使我们能够研究前馈重建模型的规模化特性。如图1所示我们观察到当我们将模型容量从0.2B参数增加到10B参数并将训练数据从几千个扩展到两百万个不同序列时重建精度以点误差衡量呈现出一致的幂律式改进。主要贡献总体而言VGGT-Ω带来了前馈重建性能的新水平在三个静态和三个动态基准测试中以显著优势取得了最先进的结果。特别是它大幅超越了后优化方法如MegaSaM和近期前馈方法如Depth Anything 3。在Sintel上对于相机估计VGGT-Ω达到了AUC3°为40.0对比22.5提升77%AUC30°为79.1对比58.3提升35%对于深度估计δ1.25为93.5对比74.1提升26%同时速度比MegaSaM快50倍。最后我们展示了学到的寄存器可以超越重建任务被重用改进VLA模型并支持与语言对齐。方法VGGT-Ω将相机和场景标记寄存器附加到图像标记上然后在全局注意力或寄存器注意力层与帧注意力层之间交替进行。我们将VGGT中冗余的密集头替换为仅训练时的损失。实验结果我们将VGGT-Ω与近期方法进行比较i前馈重建模型和ii基于优化的动态重建方法。我们在三个静态数据集7 Scenes、NRGBD和ETH3D和三个动态数据集DyCheck、Sintel和TUM-Dynamic上进行评估。对于每个场景或序列我们随机采样10帧。所有方法均使用原始发布的模型。对于DA3我们使用其最大的变体Giant1B参数。我们报告相机姿态估计的标准AUC越高越好该值是相对旋转和平移误差低于角度阈值例如3°、30°的图像对比例曲线下的面积。如表1所示前馈模型在静态基准测试和较宽松的阈值下通常表现出强劲性能而基于优化的、动态感知的MegaSaM在具有挑战性的动态序列如Sintel上更具竞争力但在宽基线或低纹理场景中性能下降。相比之下我们的模型在静态和动态数据集上、在严格和宽松阈值下均一致优于所有基线。我们还使用绝对相对误差AbsRel越低越好和δ1.25越高越好评估预测深度的精度后者衡量预测深度与真实深度之比在指定阈值内的像素百分比。如表2所示我们的模型在静态基准测试中优于基线在现有方法表现强劲的数据集如ETH3D上进一步降低了AbsRel在动态场景中更是如此降低了深度误差并提高了δ1.25例如在Sintel上δ1.25从86.1提升到93.5AbsRel从0.118降至0.081。更大的10B变体一致优于1B模型表明扩展重建模型直接有利于相机和深度精度。总结 未来工作我们提出了VGGT-Ω一个在静态和动态基准测试上均取得强劲结果的前馈重建模型。我们在架构、数据和训练方面改进了原始VGGT引入了寄存器注意力使用了带多任务损失的单一密集预测头一个处理动态内容的大规模标注流程以及一个利用海量无标签视频的自监督训练协议。这些要素使我们能够以前所未有的规模训练模型。实验发现VGGT-Ω随着模型容量和数据规模呈现可预测的缩放规律。超越几何领域我们发现学到的寄存器携带有用的全局信息改进了VLA模型并支持与语言对齐。我们希望VGGT-Ω能成为社区构建的有用基础。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。
CVPR‘26 Oral开源 | VGGT团队重磅VGGT-Ω:革新三维重建和位姿估计,精度暴涨77%
发布时间:2026/5/19 12:26:00
点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入论文信息标题VGGT-Ω作者Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, Piotr Bojanowski, David Novotny, Andrea Vedaldi, Christian Rupprecht机构Visual Geometry Group, University of Oxford、Meta AI原文链接https://vggt-omega.github.io/assets/paper/preview_v3.pdf代码链接https://vggt-omega.github.io/导读近年来出现的基于前馈机制的重建模型比如VGGT已经证明其性能可与传统的基于优化方法的重建技术相媲美。此外这些模型还具备能够识别几何特征的能力从而有助于处理其他相关任务。在这里我们证明了这些模型的性能会随着模型规模和数据量的增加而提升。为此我们推出了VGGT-Ω模型该模型显著提升了静态场景和动态场景的重建精度、效率以及处理能力。为了实现大规模训练我们对模型架构进行了改进提升了训练效率同时我们还开发了一套适用于动态场景的高质量数据标注流程并采用了自监督学习方法来辅助训练。我们通过采用单一的密集型预测单元并结合多任务训练方式来简化VGGT的架构同时去掉了那些计算成本高昂的高分辨率卷积层。我们还利用“寄存器”来整合场景信息将其转化为简洁的形式。此外我们引入了“寄存器注意力机制”将帧与帧之间的信息传递限制在这些寄存器内从而在一定程度上替代了全局注意力机制的作用。这样一来在训练过程中VGGT-Ω所消耗的GPU内存仅为前代模型的约30%。这使得我们可以使用比以往多15倍的标注数据来训练VGGT-Ω进而充分利用大量未标注的视频数据。在多个基准测试中VGGT-Ω在静态和动态场景的重建方面取得了出色的成绩。例如在Sintel测试中其相机估计精度比之前的最佳成果提高了77%。我们还发现通过学习得到的“寄存器”有助于提升视觉-语言-动作模型的性能同时也有助于实现与语言的更好融合。由此可见场景重建作为一种有效的任务能够助力我们对空间结构进行深入理解。效果展示定性结果。VGGT-2既能处理静态内容也能处理动态内容。每个示例均使用了64、4、9、16和32个输入帧。中可见一斑。无论是静态场景的重建、动态动作的捕捉、空中/第一人称视角下的飞行画面、室内环境的呈现还是水下场景的再现都能轻松实现。引言近期研究表明前馈重建模型在许多情况下能够媲美甚至超越传统的运动恢复结构SfM流程。此外这类模型学到的标记token已被用作许多其他任务中有效的几何感知表示。这表明重建可以作为学习对空间理解有用的表示的代理任务具有基础性价值。然而与规模的作用已被充分理解的基础模型相比这一点在3D计算机视觉中探索较少。因此在本文中我们探究前馈重建模型是否能够规模化扩展以及这种扩展带来的益处。为了回答这个问题我们提出了VGGT-Ω将前馈重建扩展到比先前工作显著更大的数据和可选的模型规模。与VGGT相比新模型引入了一系列架构改进首先是对寄存器的使用方式。近期工作指出视觉TransformerViT会自发地利用少量图像标记来承载全局信息并引入了可学习的寄存器以更直接、高效地实现这一点。虽然VGGT已经拥有每帧的寄存器但VGGT-Ω进一步引入了寄存器注意力在全局注意力层的一个子集中帧之间的信息交换仅限于寄存器。然后更新后的寄存器在帧注意力层内与局部其他标记交互从而形成一个瓶颈用于聚合和重新分配多帧信息。这种设计鼓励寄存器聚合关于整个场景的信息我们也将其称为“场景”标记。这种设计有两个好处。第一在其他架构中寄存器通常被视为辅助性的并在推理时被丢弃而我们相反地证明它们携带有用的全局信息。特别地尽管没有显式监督它们仍能为视觉-语言-动作VLA模型和语言对齐提供有用的特征。第二寄存器注意力也提高了效率。全局注意力是VGGT中的主要计算瓶颈但其注意力图非常稀疏。我们发现寄存器注意力通过聚合全局信息也可以作为完全全局注意力的有效替代。具体而言将25%的全局注意力层替换为寄存器注意力不会导致可测量的性能下降同时在训练期间为骨干网络节省约23%的FLOPs和16%的内存¹。除了寄存器我们还注意到密集预测头例如DPT中的高分辨率卷积层消耗了不成比例的GPU内存来存储前向激活尽管它们只占模型参数的一小部分。像FSDP或梯度检查点等技术无法消除存储这些激活的成本。因此我们的第二个改变是将密集预测器中内存最密集的卷积层替换为一个单层MLP后跟一个像素重排操作。这在定量和定性上都能以很少的内存使用实现无性能下降。最后在VGGT中我们展示了多任务训练直接监督深度图、点图、跟踪特征是有益的。在这里我们发现实现这些益处不需要额外的密集头。我们的第三个改变是仍然使用多任务损失但仅保留一个用于深度预测的密集头和一个用于相机预测的稀疏头。这三个改变在训练期间节省了70%的GPU内存并适度提高了推理速度。除了效率我们还发现训练数据的数量、多样性和质量对规模化至关重要。特别是处理动态内容是必不可少的因为它可以解锁数量级更大的类似互联网的视频用于训练。因此我们开发了一个高质量的数据标注流程能够大规模地为刚性和动态视频生成标注。该流程集成了基于VLM的预过滤、VGGT、COLMAP、现代图像匹配模型以及有监督的几何后过滤。将该过滤流程应用于约4000万个内部互联网风格的视频保留了80万个具有精确标注的序列其中约三分之一包含动态内容。结合现有的数据集包括真实和合成数据总共得到400万个具有精确重建标注的多样化场景/序列是VGGT的15倍以上。为了进一步提高泛化能力我们引入了一个受DINO和相关动量师生方法启发的自监督学习协议。我们维护从有监督的VGGT-Ω检查点初始化的教师和学生模型。两个模型在相同的输入序列上处理但采用不同的增强和帧排列。学生模型被训练为匹配教师模型的预测和特征分布在对齐帧顺序之后而教师模型通过学生的指数移动平均进行更新。我们使用该协议在1800万个无标签视频上进行训练。这些改进使我们能够研究前馈重建模型的规模化特性。如图1所示我们观察到当我们将模型容量从0.2B参数增加到10B参数并将训练数据从几千个扩展到两百万个不同序列时重建精度以点误差衡量呈现出一致的幂律式改进。主要贡献总体而言VGGT-Ω带来了前馈重建性能的新水平在三个静态和三个动态基准测试中以显著优势取得了最先进的结果。特别是它大幅超越了后优化方法如MegaSaM和近期前馈方法如Depth Anything 3。在Sintel上对于相机估计VGGT-Ω达到了AUC3°为40.0对比22.5提升77%AUC30°为79.1对比58.3提升35%对于深度估计δ1.25为93.5对比74.1提升26%同时速度比MegaSaM快50倍。最后我们展示了学到的寄存器可以超越重建任务被重用改进VLA模型并支持与语言对齐。方法VGGT-Ω将相机和场景标记寄存器附加到图像标记上然后在全局注意力或寄存器注意力层与帧注意力层之间交替进行。我们将VGGT中冗余的密集头替换为仅训练时的损失。实验结果我们将VGGT-Ω与近期方法进行比较i前馈重建模型和ii基于优化的动态重建方法。我们在三个静态数据集7 Scenes、NRGBD和ETH3D和三个动态数据集DyCheck、Sintel和TUM-Dynamic上进行评估。对于每个场景或序列我们随机采样10帧。所有方法均使用原始发布的模型。对于DA3我们使用其最大的变体Giant1B参数。我们报告相机姿态估计的标准AUC越高越好该值是相对旋转和平移误差低于角度阈值例如3°、30°的图像对比例曲线下的面积。如表1所示前馈模型在静态基准测试和较宽松的阈值下通常表现出强劲性能而基于优化的、动态感知的MegaSaM在具有挑战性的动态序列如Sintel上更具竞争力但在宽基线或低纹理场景中性能下降。相比之下我们的模型在静态和动态数据集上、在严格和宽松阈值下均一致优于所有基线。我们还使用绝对相对误差AbsRel越低越好和δ1.25越高越好评估预测深度的精度后者衡量预测深度与真实深度之比在指定阈值内的像素百分比。如表2所示我们的模型在静态基准测试中优于基线在现有方法表现强劲的数据集如ETH3D上进一步降低了AbsRel在动态场景中更是如此降低了深度误差并提高了δ1.25例如在Sintel上δ1.25从86.1提升到93.5AbsRel从0.118降至0.081。更大的10B变体一致优于1B模型表明扩展重建模型直接有利于相机和深度精度。总结 未来工作我们提出了VGGT-Ω一个在静态和动态基准测试上均取得强劲结果的前馈重建模型。我们在架构、数据和训练方面改进了原始VGGT引入了寄存器注意力使用了带多任务损失的单一密集预测头一个处理动态内容的大规模标注流程以及一个利用海量无标签视频的自监督训练协议。这些要素使我们能够以前所未有的规模训练模型。实验发现VGGT-Ω随着模型容量和数据规模呈现可预测的缩放规律。超越几何领域我们发现学到的寄存器携带有用的全局信息改进了VLA模型并支持与语言对齐。我们希望VGGT-Ω能成为社区构建的有用基础。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。