CVPR26最佳论文提名:SAM3D,单图生成可组合3D场景的基础模型 Meta超级智能实验室提出视觉 grounding 3D 重建新范式通过多阶段训练与模型在环数据引擎实现复杂自然场景下的高质量物体几何、纹理与布局联合预测论文来源arXiv:2511.16624v2 [cs.CV] | 研究团队Meta Superintelligence Labs核心摘要SAM 3D 是面向自然图像的生成式三维重建基础模型能够从单张输入图像中预测物体的完整几何形状、表面纹理以及在相机坐标系中的空间布局旋转、平移与尺度。该模型针对自然场景中常见的遮挡与杂乱背景进行了专门优化采用类似大语言模型的多阶段训练策略——包括合成数据预训练、半合成数据中间训练以及真实世界数据后训练——并配套构建了包含模型在环Model-in-the-Loop与专业3D艺术家协同的数据引擎。实验表明在真实世界物体与场景的人类偏好测试中SAM 3D 相较现有方法取得了至少 5:1 的胜率。研究团队同步开源了代码、模型权重、在线演示以及一个包含1000对真实图像与3D模型的新基准测试集 SA-3DAO。一、研究背景从单张图片到三维世界的长期挑战计算机视觉领域长期以来将多视图几何视为获取三维形状信息的主要途径。然而心理学研究早已证实人类具备从单张图像中感知深度与形状的能力。Koenderink 等学者在 1992 年的经典实验中展示人类能够在物体图像上的探测点估计表面法线并将其积分恢复为完整曲面。在心理学教材中这些单图像线索被称为图像线索pictorial cues涵盖阴影、纹理模式同时也包含对熟悉物体的识别——即熟悉物体线索。在计算机视觉领域这一研究脉络可追溯至 1963 年 Roberts 的开创性工作一旦图像模式被识别为已知物体其三维形状与姿态即可被恢复。其核心洞察在于识别能力能够赋能三维重建。这一思想在后续的不同技术实现中反复出现包括基于形态模型的方法以及近年来的深度学习框架。SAM 3D 正是建立在这一核心洞察之上即使某个具体物体从未在训练集中出现只要它由曾经见过的部件组成模型便具备泛化重建的潜力。然而学习此类模型面临一个根本性障碍——数据稀缺。具体而言带有三维真实标注的自然图像难以大规模获取。近期部分研究如 Trellis、Hunyuan3D 等在孤立物体图像上展示了较强的单图重建能力但在自然场景中物体往往距离较远或严重遮挡这些方法的表现显著下降。要将此类图像纳入训练集必须找到一种将图像中的具体物体与三维形状模型关联起来的途径而普通标注者难以直接生成三维网格与标注猫或绘制边界框截然不同。SAM 3D 通过两项关键洞察解决了这一难题第一借鉴合成数据渲染与图像融合的思路构建半合成训练数据第二将三维形状生成任务转化为选择任务——普通人类标注者虽难以从零创建三维模型但能够从一组候选方案中选出最匹配图像的模型并调整其姿态。图 1SAM 3D 将单张图像转换为可组合的三维场景。模型预测每个物体的几何、纹理与布局实现完整场景重建。底部展示了为每个物体恢复的高质量三维资产。来源论文 Figure 1二、SAM 3D 模型架构两阶段 latent flow matching 设计SAM 3D 将摄影过程建模为三维物体到二维像素的映射并寻求逆映射。给定图像I II与物体掩码M MM模型旨在恢复物体的形状S SS、纹理T TT以及相机坐标系下的旋转R RR、平移t tt和尺度s ss。由于三维到二维的映射存在信息损失SAM 3D 将重建问题建模为条件分布p ( S , T , R , t , s ∣ I , M ) p(S,T,R,t,s|I,M)p(S,T,R,t,s∣I,M)的近似通过学习生成模型q ( S , T , R , t , s ∣ I , M ) q(S,T,R,t,s|I,M)q(S,T,R,t,s∣I,M)来逼近真实分布。2.1 双阶段架构设计SAM 3D 基于当前最先进的两阶段 latent flow matching 架构构建但相较于仅重建孤立物体的前代工作其创新性地引入了物体布局预测能力从而能够构建多物体场景的一致空间排列。整体架构分为上下两个部分图 2SAM 3D 架构概览。上几何模型首先预测粗略形状与布局右Mixture-of-Transformers 采用双流架构在多模态自注意力层实现信息共享。下几何模型预测的体素传入纹理与精修模型补充高分辨率细节与纹理。来源论文 Figure 2**几何模型Geometry Model**负责联合预测物体姿态与粗略形状。输入编码采用 DINOv2 提取特征形成四组条件 token掩码裁剪后的物体图像及其二值掩码提供高分辨率局部视图以及完整图像与全图二值掩码提供全局场景上下文与识别线索。此外模型可选地支持以稠密点云图Point Map作为条件输入该点云可通过硬件传感器如 iPhone 的 LiDAR或单目深度估计器获取使 SAM 3D 能够与其他感知管线灵活集成。几何模型采用 12 亿参数的 flow transformer基于 Mixture-of-TransformersMoT架构。MoT 设计了两路 transformer一路专门处理形状 token另一路共享参数处理布局参数旋转、平移、尺度。通过结构化的多模态自注意力掩码MoT 允许部分模态独立训练同时在前向传播中通过联合自注意力层实现跨模态信息交互。这种共享上下文对于自洽性至关重要——例如旋转预测只有在与预测形状锚定时才具有物理意义。**纹理与精修模型Texture Refinement Model**负责学习从粗略体素形状到高分辨率几何细节与表面纹理的映射。该模型首先从几何模型预测的粗略形状中提取活跃体素随后采用 6 亿参数的稀疏 latent flow transformer 进行精修。 latent 表示最终可通过两个 VAE 解码器分别解码为网格Mesh或三维高斯泼溅3D Gaussian Splats两种解码器共享同一个 VAE 编码器与结构化 latent 空间。2.2 输入编码与多模态融合SAM 3D 的输入编码策略体现了对视觉识别线索的深刻理解。模型同时处理两组图像-掩码对以物体为中心的裁剪视图提供聚焦的高分辨率物体外观而完整图像视图则提供全局场景上下文。论文指出在自然图像中上下文提供的识别线索对三维重建至关重要——例如通过场景中的透视关系、遮挡模式以及物体间的相对尺度模型能够更准确地推断被遮挡部分的几何结构。这种双路径编码策略使 SAM 3D 在处理部分可见物体时表现出显著优于仅依赖局部裁剪的方法。三、数据引擎打破三维数据壁垒的关键创新三维重建领域长期面临的数据瓶颈在于自然图像与三维真实标注的配对数据难以规模化获取。SAM 3D 通过借鉴大语言模型LLM的多阶段训练范式结合创新的模型在环Model-in-the-Loop, MITL数据引擎系统性地解决了这一问题。3.1 四阶段训练范式SAM 3D 的训练流程由四个递进阶段组成逐步将模型暴露于越来越复杂的数据与模态图 4SAM 3D 训练范式。采用多阶段管线逐步将模型暴露于日益复杂的数据与模态。来源论文 Figure 4阶段一合成预训练Synthetic Pre-training。模型首先在 Iso-3DO 数据集上进行预训练该数据集包含 270 万从 Objaverse-XL 及授权数据集中渲染的孤立合成物体每个物体从 24 个视角渲染总计约 6480 万张图像。此阶段使模型学习丰富的形状与纹理词汇为真实世界重建奠定基础。阶段二半合成中间训练Semi-Synthetic Mid-training。通过 Render-Paste 技术将带纹理的合成网格渲染并融合到自然图像中构建 RP-3DO 数据集6100 万样本280 万独立网格。该阶段注入三项关键能力掩码跟随mask-following、遮挡鲁棒性occlusion robustness以及布局估计layout estimation。具体而言“飞行遮挡”Flying Occlusions变体将随机方向的合成物体插入图像强制模型学习在遮挡条件下完成形状补全“物体替换-随机”Object Swap-Random与物体替换-标注Object Swap-Annotated变体则通过深度感知的方式替换真实物体提供关于物体尺度与空间位置的视觉线索。阶段三真实世界监督微调Real-World SFT。利用 MITL 数据引擎与 Art-3DO 艺术家标注数据将模型从半合成域迁移到真实自然图像域。MITL-3DO 包含约 100 万张图像与 314 万无纹理网格Art-3DO 则包含最难案例的专业艺术家手工建模。阶段四偏好优化Preference Optimization。基于人类对模型输出的偏好对比数据采用 Direct Preference OptimizationDPO进一步对齐模型输出与人类审美标准消除对称性缺失、底部开口等常见瑕疵。3.2 模型在环数据引擎SAM 3D 的数据引擎设计基于一个核心观察普通人类标注者难以从零创建三维网格但具备从候选方案中选出最佳匹配的能力。因此团队将三维标注任务分解为三个可管理的子任务图 12第二阶段用户界面草图。标注者只能在候选方案之间进行选择无法直接编辑网格。来源论文 Figure 12阶段一目标选择与掩码标注。从 SA-1B、MetaCLIP、Ego4D 等多样化数据集中采样图像结合 SAM 系列模型与人工标注者确定目标物体掩码。阶段二三维模型排序与选择。由检索模块、文本生成三维模型、图像生成三维模型以及当前 SAM 3D 检查点组成的模型套件为每个物体生成多个候选形状与纹理。标注者通过成对比较pairwise comparison从中选出最佳方案并按质量量规评分。未达标的候选方案则作为负样本用于偏好学习。随着训练迭代SAM 3D 自身检查点产生的候选占比从早期不足 20% 提升至最终约 80%形成数据质量与模型能力的正向循环。图 13第三阶段用户界面草图。界面支持标注者将物体直接放置到 2.5D 点云场景中通过旋转、平移与缩放操作完成姿态对齐。来源论文 Figure 13阶段三场景对齐。标注者将选定的三维模型相对于 2.5D 点云由单目深度估计或传感器获取进行旋转、平移与缩放操作使物体精确锚定到场景中的正确空间位置。点云提供了足够的结构信息使非专业标注者也能完成一致的空间放置与朝向估计。对于模型套件完全失效的极少数困难案例团队将其路由至专业三维艺术家进行直接建模Art-3DO。这些艺术家标注不仅提供了高质量监督信号更重要的是在数据分布的尾部种下了新的性能岛屿使模型得以快速扩展到原本难以触及的物体类别与复杂场景。图 14数据引擎改进的简化示意图。模型最初在常见类别与简单物体上表现良好青色区域随后逐步扩展到数据分布尾部的稀有物体黄色区域。艺术家标注数据在尾部种下了新的性能种子加速模型向长尾分布的收敛。来源论文 Figure 143.3 数据规模与迭代飞轮在整个项目周期内MITL 数据引擎累计产生了 314 万可训练形状、123 万布局样本、10 万可训练纹理以及超过 700 万对成对偏好数据。论文中的历史 Elo 评分曲线显示随着数据引擎迭代轮次的增加模型性能呈现近线性的稳步提升。在约三周为间隔的检查点比较中模型 Elo 评分从预训练阶段的约 1320 分提升至第六轮迭代后的 1750 分以上对应人类偏好测试中超过 10:1 的胜率优势。图 10a数据引擎历史 Elo 评分。检查点间隔约三周显示累积性能提升。来源论文 Figure 10a图 10b扩展训练数据的影响。随着数据引擎迭代模型性能持续提升。来源论文 Figure 10b四、实验评估真实场景下的系统性优势为全面评估模型在真实世界条件下的能力研究团队构建了一个全新的基准测试集SA-3DAOSAM 3D Artist Objects包含 1000 个由专业三维艺术家从自然图像中手工创建的三维网格。这些物体涵盖从教堂、滑雪缆车等大型结构到动物、日常家居用品乃至部落面具等文化特异性物品且均与原始图像中的自然场景精确对齐。该基准代表了视觉 grounding 三维重建的专家级人类上限为后续研究提供了标准化的评估标尺。图 3SAM 3D 训练数据示例。绿色轮廓标出目标物体右下角显示真实网格。四行分别对应孤立合成物体Iso-3DO、渲染融合物体RP-3DO、模型在环标注物体MITL 3D以及艺术家标注物体Art-3D。来源论文 Figure 34.1 单物体重建几何与纹理的双重领先在 SA-3DAO 基准上的定量评估显示SAM 3D 在全部四项几何指标上显著超越现有最优方法。具体而言SAM 3D 的 F10.01 达到 0.2344Trellis 为 0.1475体素交并比vIoU达到 0.2311Trellis 为 0.1392Chamfer 距离降至 0.0400Trellis 为 0.0902Earth Mover’s Distance 降至 0.1211Trellis 为 0.2131。在 ISO3D 评估集无几何真实标注仅评估感知相似性上SAM 3D 的 ULIP 与 Uni3D 指标亦与最优方法持平或更优。图 6与现有单图到三维资产方法的定性对比。在艺术家生成的 SA-3DAO 上SAM 3D 与 Trellis、Hunyuan3D-2.0、Direct3D-S2、TripoSG、Hi3DGen 及三维艺术家真实标注的比较。来源论文 Figure 6在人类偏好测试中SAM 3D 在真实图像上取得了至少5:1的胜率。在纹理评估中当所有方法均基于 SAM 3D 提供的几何形状进行纹理生成时SAM 3D 的纹理模块仍以显著优势被人类标注者偏好。在 ISO3D、Preference Set、SA-3DAO 与 LVIS 四个数据集上SAM 3D 的纹理胜率分别超过基线方法 81.1%、87.0%、86.2% 与 89.1%。图 8场景级与物体级重建的人类偏好对比。SAM 3D 在所有评估集上均被显著偏好。来源论文 Figure 8图 9纹理偏好对比。基于 SAM 3D 几何形状各方法进行纹理生成后的比较结果。来源论文 Figure 94.2 场景级重建布局估计的突破性进展相较于仅重建孤立物体的方法SAM 3D 的核心差异化能力在于能够同时预测物体形状与场景布局从而重建完整的多物体三维场景。在 SA-3DAO 与 Aria Digital Twin 数据集上的定量比较表明SAM 3D 在三维交并比3D IoU、ICP 旋转误差、ADD-S 对称距离等布局指标上均显著优于既有方案。特别值得注意的是当将 SAM 3D 作为布局估计的初始提案proposal再辅以渲染-比较render-and-compare的测试时优化时其布局精度可进一步提升。在 Aria Digital Twin 数据集上优化后的三维 IoU 从 0.4837 提升至 0.5258ADD-S0.1 从 0.7545 提升至 0.7617二维掩码 IoU 从 0.5143 提升至 0.6487。这证明了 SAM 3D 的前馈预测结果可作为高精度姿态优化算法的优质初始化。图 7与现有场景重建方法的定性对比。SAM 3D 的完整三维场景重建与替代方案HY3D-2.0 Foundation Pose、MIDI的比较。来源论文 Figure 74.3 消融实验验证多阶段训练的有效性论文通过系统性的消融实验验证了每一阶段训练的必要性。在 SA-3DAO 上仅经过预训练Iso-3DO的模型 F10.01 为 0.1349加入中间训练RP-3DO后提升至 0.1705加入 MITL-3DO 的监督微调后达到 0.2027再经 MITL 偏好优化提升至 0.2156最后加入 Art-3DO 艺术家数据与 DPO 优化后最终达到 0.2344。这一近单调的改进曲线清晰表明每个阶段都为模型带来了可测量的性能增益多阶段策略是 SAM 3D 成功的关键支柱。图 17纹理与精修模型的消融实验。各训练阶段组件的人类偏好率提升百分比显示后训练数据与 DPO 的关键作用。来源论文 Figure 17五、技术细节训练目标与模型蒸馏5.1 条件流匹配与偏好优化SAM 3D 采用条件整流流匹配Conditional Rectified Flow Matching作为核心训练目标。对于几何模型给定输入图像与掩码条件模型优化多模态流匹配目标联合生成形状、旋转、平移与尺度四种模态。论文指出流匹配目标本身已足以让 SAM 3D 学习三维重建任务无需显式施加几何约束损失。一个有趣的观察是虽然几何约束损失在低数据、低算力场景下有所帮助但随着数据与算力规模的增长其价值逐渐下降表明几何先验可以通过规模化训练隐式习得。在偏好对齐阶段SAM 3D 采用适配于流匹配框架的 Direct Preference OptimizationDPO。给定同一输入条件下的人类偏好输出对优选样本与次选样本DPO 目标通过比较两者在流匹配速度场下的距离差异调整模型以增大生成优选样本的概率。实现细节上团队移除了非 SAM 3D 生成方法如基于检索或多视图扩散的纹理生成产生的负样本因为这些样本处于 SAM 3D 的分布之外直接用于 DPO 可能引入噪声。5.2 模型蒸馏从 25 步到 4 步的推理加速为满足机器人等在线三维感知应用对推理速度的严苛要求SAM 3D 在训练后期引入了流匹配蒸馏技术。通过 Shortcut Models 方法团队将几何模型的推理步数从 25 步压缩至 4 步同时保持了极高的输出质量。具体而言蒸馏目标结合了标准流匹配损失与自洽性损失模型不仅学习匹配单步速度场还学习预测跨度为2 d 2d2d的 shortcut 步长使得两步合成后的轨迹与直接跳跃一致。图 18模型蒸馏效果。Shortcut 模式相比标准流匹配在极少步数下即可达到接近 25 步的性能。来源论文 Figure 18定量结果显示使用 1 步 shortcut 方法可获得 38 倍推理加速4 步方法可获得 10 倍加速且几何精度与完整 25 步流匹配相当。对于纹理与精修模型由于几何形状主要由几何模型的体素输出决定增加步数对几何改变有限因此最终发布版本未对纹理模块进行蒸馏其本身在少量步数下已表现良好。5.3 深度感知 VAE 与纹理精修在纹理生成管线中SAM 3D 对原始 SLAT VAE 进行了关键改进提出了 Depth-VAE。原始设计将特征反向投影到所有体素包括当前视角不可见的被遮挡体素导致重建图像锐度下降。Depth-VAE 仅将特征反向投影到每幅视角下可见的体素通过深度缓冲区depth buffer处理遮挡关系并在训练时按活跃体素数量归一化 KL 正则项防止大物体主导损失函数。实验表明Depth-VAE 在 PSNR、SSIM 与 LPIPS 三项指标上均优于非深度感知版本且数据规模扩大后优势进一步放大。六、SA-3DAO面向真实世界三维重建的新基准现有三维重建评估基准大多依赖合成数据集如 ShapeNet、Objaverse将孤立物体置于纯色背景中渲染这与真实世界的视觉复杂度存在巨大鸿沟。面向真实数据的基准则多聚焦于室内家具如椅子、桌子类别分布严重倾斜。为填补这一空白研究团队发布了 SA-3DAO 基准专门设计以捕捉真实世界三维感知的多样性与复杂性。SA-3DAO 包含 1000 个无纹理三维物体由职业三维艺术家依据自然图像手工创建并精确对齐。场景覆盖室内与室外环境包括公园、滑雪场、跳蚤市场、游行场景等物体类型从大型结构化实体如滑雪缆车、自动扶梯到日常衣物再到文化特异性稀有物品如部落面具。图像中物体数量服从近似幂律分布多数图像包含 1 至 3 个物体少数复杂场景包含多达 11 个物体。图 11SAM 3D 训练数据的类别分布。上图展示了前 80 个物体类别的分布呈现出典型的长尾特征。来源论文 Figure 11在构建过程中艺术家被要求从单张图像中恢复目标物体的完整三维网格并精确对齐物体在图像中的可见像素。这一任务要求艺术家利用常识先验、物理合理性以及对称性假设来填补信息缺口——这与 SAM 3D 模型的目标完全一致。数据集的中位网格包含 4751 个顶点简单几何体可在 5 分钟内完成而复杂案例可能需要 5 小时以上。研究团队期望这一基准能够成为后续真实世界三维重建研究的标准测试平台。七、应用前景与未来方向SAM 3D 的发布为多个应用领域带来了新的可能性。在增强现实AR与虚拟现实VR领域用户仅需拍摄一张日常照片即可获得可交互的三维场景模型大幅降低三维内容创作门槛。在机器人领域SAM 3D 的实时布局估计能力可为抓取规划、导航与场景理解提供即时的三维语义地图。在游戏与影视制作中艺术家可以快速将现实世界的物体与场景转化为可编辑的三维资产加速数字孪生环境的构建。图 22场景重建定性示例。SAM 3D 与替代场景重建方法的对比展示。来源论文 Figure 22研究团队同时指出了若干值得探索的未来方向。当前几何模型的体素分辨率为64 3 64^3643对于复杂薄结构或人体手部、面部等人类视觉高度敏感的区域相对分辨率仍显不足。通过架构升级、超分辨率模型、部件级生成或隐式三维表示有望进一步提升细节保真度。在多物体联合推理方面当前 SAM 3D 逐物体独立预测尚未显式建模物理接触、稳定性、互穿透或共面关系。引入多物体联合预测与物理约束损失将允许模型对场景进行更整体化的空间推理。此外虽然 SAM 3D 对输入掩码的精度具有相当鲁棒性但将分割模型与三维重建进行端到端联合优化有望进一步简化用户交互流程。图 21SA-3DAO 评估集上的额外定性形状与纹理结果。对于包含纹理的模型左侧显示无纹理网格右侧显示带纹理网格。来源论文 Figure 21八、结语SAM 3D 代表了单图三维重建领域向真实世界复杂度迈进的重要一步。通过将现代多阶段训练范式与创新的模型在环数据引擎相结合研究团队成功打破了长期制约三维视觉发展的数据壁垒使模型在遮挡、杂乱背景与长尾类别上展现出前所未有的泛化能力。其在 SA-3DAO 基准上的定量领先、人类偏好测试中的显著优势以及开源的代码、模型权重与在线演示为学术界与工业界的后续创新奠定了坚实基础。随着三维基础模型的持续演进从看见图像到理解三维世界的距离正被以前所未有的速度缩短。主要参考文献Chen X, Chu F J, Gleize P, et al. SAM 3D: 3Dfy Anything in Images. arXiv preprint arXiv:2511.16624v2, 2026.具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html