引言
2025 年 11 月 19 日,Meta AI 发布了 SAM 3D,这是计算机视觉领域的一项突破性进展,能够从单张 2D 图像重建完整的 3D 物体和人体。作为 Segment Anything Collection 最新成员 SAM 3 的配套发布,SAM 3D 代表了人工智能如何从平面图像理解和重建三维世界的重大飞跃。
此次发布标志着 Meta 在弥合 2D 图像与 3D 空间理解之间差距的持续使命中的重要里程碑,该技术已在 Meta 产品生态系统中得到实际应用。
什么是 SAM 3D?
SAM 3D 引入了两种专门架构,旨在处理物理世界的复杂性:SAM 3D Objects,可从单张图像重建详细的 3D 形状、纹理和布局;以及 SAM 3D Body,即使在具有挑战性的条件下也能生成准确的 3D 人体姿态和形状估计。
与需要多个视角或深度数据的传统 3D 重建方法不同,SAM 3D 可以接收一张平面的二维图像,并预测物体从其他角度看起来的样子,有效地将标准照片转换为可旋转的 3D 模型。
两个核心模型
SAM 3D Objects
SAM 3D Objects 是一个基础模型,可从单张照片重建完整的 3D 几何、纹理和空间布局。该模型在物体可能被部分遮挡或位于杂乱环境中的真实场景中表现出色——这些情况传统上一直挑战着 3D 重建系统。
主要功能包括:
- 重建日常物体,包括家具、工具和小工具
- 完整的室内场景重建,包括深度、形状和结构预测
- 多视角一致性,确保模型从不同角度保持连贯
- 从遮罩物体生成姿态感知的 3D 网格
SAM 3D Body
SAM 3D Body 是一个可提示的模型,用于单图像全身 3D 人体网格恢复,在多样化的野外条件下展现出最先进的性能、强大的泛化能力和一致的准确性。
对于人体重建,SAM 3D Body 利用一种名为 Meta Momentum Human Rig (MHR) 的新型开源 3D 网格格式,通过分离骨骼结构和软组织形状来提供增强的可解释性。这种分离使得人体模型更加真实和可调整,为虚拟化身和动画开辟了新的可能性。
革命性的训练方法
SAM 3D 与之前 3D 重建模型的不同之处在于其训练方法。革命性的"人在回路中"数据引擎标注了近 100 万张物理世界图像,生成了超过 300 万个经过验证的网格,弥合了"仿真到现实"的差距,使 SAM 3D 能够在纯合成训练模型失败的多样化真实场景中泛化。
这种渐进式训练方法结合了融入人类反馈的数据标注引擎,使系统能够处理在未筛选的自然场景中遇到的小物体、异常姿态和困难情况。
技术架构
SAM 3D Body 采用 Transformer 编码器-解码器架构,支持基于提示的预测,如遮罩和关键点,用于在复杂姿态和遮挡下进行高精度人体姿态和网格重建。该模型支持辅助提示,包括 2D 关键点和遮罩,使用户能够进行引导式推理,类似于更广泛的 SAM 模型系列。
该架构展现出卓越的效率,能够在几秒钟内处理和重建 3D 模型,而不是数小时。系统利用先进的推理逻辑,甚至可以"幻觉"出被遮挡物体合理的背面几何形状,从有限的视觉信息中创建完整的 3D 表示。
已部署的实际应用
Facebook Marketplace:房间查看功能
Meta 正在使用 SAM 3D 在 Facebook Marketplace 上启用新的"房间查看"功能,帮助人们在购买前可视化家居装饰物品(如台灯或桌子)在其空间中的风格和适配效果。这一实际应用通过允许买家在实际生活空间中预览家具,解决了在线商务中的常见痛点。
创意媒体工具
SAM 3 集成到 Meta 的 Edits 视频创作应用程序和 Vibes 平台中,驱动允许修改视频中指定对象的效果,使创作者能够选择性地编辑元素而不影响周围内容。
Segment Anything Playground
用户可以在 Segment Anything Playground 上试用 SAM 3 和 SAM 3D,这是 Meta 的新平台,为每个人提供访问尖端模型的机会,无需技术专业知识。用户可以上传图像,使用 SAM 3D 从新视角查看场景,虚拟重新排列物体,或添加运动轨迹等 3D 效果。
性能和能力
SAM 3D 的性能指标令人印象深刻。该模型可以:
- 重建任何物体类别,无限制,这得益于对不同概念的大规模预训练
- 处理挑战传统方法的被遮挡物体和杂乱场景
- 生成适合交互应用的多视角一致 3D 模型
- 以标准格式导出模型,包括 OBJ、GLB 以及用于人体的新 MHR 格式
Meta 开发了 SAM 3D Artist Objects,被描述为专门设计用于挑战现有 3D 重建方法并建立衡量三维建模研究进展新基准的首个评估数据集。
行业应用和未来潜力
SAM 3D 的影响远远超出了消费者应用:
增强现实和虚拟现实:从照片快速生成 3D 资产的能力使 AR/VR 体验更加沉浸,并为虚拟环境快速创建内容。
机器人和空间计算:Meta 认为 SAM 3D 对机器人、科学和运动医学等领域具有重大影响,以及支持创建 3D 虚拟世界和增强现实体验或基于真实世界物体和人物的视频游戏新资产等创意用例。
游戏和动画:游戏开发者现在可以将真实世界的物体和人物转换为 3D 资产,可直接用于 Blender、Unity 或 Unreal Engine,大幅加速资产创建流程。
电子商务:"房间查看"功能仅代表了 3D 重建如何改变在线购物体验的开始。
开源承诺
Meta 正在分享 SAM 3D 模型检查点和推理代码,并引入一个新颖的 3D 重建基准,该数据集包含多样化的图像和物体,提供超越现有 3D 基准的真实感和挑战水平。
该公司通过多个渠道使技术易于访问:
- 交互式网络演示:aidemos.meta.com/segment-anything/editor/convert-image-to-3d
- GitHub 上的完整源代码:facebookresearch/sam-3d-objects 和 facebookresearch/sam-3d-body
- 通过 Hugging Face 提供的模型,便于集成
- 详细演示重建工作流程的 Jupyter notebooks
技术要求和可访问性
SAM 3D 最令人印象深刻的功能之一是其可访问性。该模型设计为在标准硬件上高效运行,通过优化减少内存使用并实现实时重建。Segment Anything Playground 允许任何人在网络浏览器中直接试验该技术,无需专业设备或技术知识。
局限性和未来方向
虽然 SAM 3D 代表了一项重大进步,但 Meta 承认仍有持续改进的领域。该系统在清晰图像和明确定义的物体上效果最佳,尽管其对遮挡和杂乱的鲁棒性已经超过了以前的方法。公司继续改进模型以处理日益复杂的场景和边缘情况。
更广泛的背景:SAM 3 和 SAM 3D 的结合
SAM 3D 并非孤立运行。Meta 同时发布了 SAM 3,这是一个统一的视觉模型,为视觉分割和跟踪带来强大的开放词汇语言理解。这些模型共同创建了一个强大的生态系统,用户可以通过 SAM 3 使用文本提示识别物体,然后立即使用 SAM 3D 将它们重建为 3D。
这种组合实现了以前不可能或需要大量手动工作的工作流程。例如,用户可以输入"红色椅子"使用 SAM 3 在图像中分割所有红色椅子,然后使用 SAM 3D 立即将每个转换为 3D 模型。
结论
Meta 的 SAM 3D 代表了我们在 3D 重建方法上的根本转变。通过超越传统摄影测量和纯合成训练的限制,SAM 3D 为真实世界的 3D 重建任务带来了语义理解和强大的性能。
该技术在 Meta 产品生态系统中的即时部署——从 Facebook Marketplace 到 Instagram 的创意工具——展示了系统的成熟度和实用价值。更重要的是,Meta 对开源模型、代码和基准的承诺确保了更广泛的研究和开发社区可以在此基础上构建。
随着我们朝着 AR 眼镜、VR 头显和 AI 驱动的创意工具等日益空间化的计算范式迈进,将我们的 2D 世界无缝转换为交互式 3D 表示的能力变得至关重要。SAM 3D 为这一未来提供了强大、可访问的基础,使 3D 重建民主化,并使其可供全世界的创作者、开发者和研究人员使用。
SAM 3D 的发布不仅仅是一个 AI 模型——它是对未来的展望,在这个未来中,2D 图像和 3D 现实之间的边界变得越来越模糊,任何人都可以用相机捕捉物体或人物,并立即拥有一个完整的、可操作的 3D 表示,随时可用于他们设想的任何创意或实际目的。
资源:
