当前位置:首页 > 科技资讯 > 正文

Meta发布SAM 3D系列模型与SAM 3,引领3D重建与图像分割技术革新

据智东西11月20日消息,Meta公司今日正式推出了全新的SAM 3D模型家族,并发布了两款3D模型:其中,SAM 3D Objects专用于物体和场景的三维重建,而SAM 3D Body则专注于人体和体型的精确估算。

这一系列模型的显著效果在于,用户只需点击图像中的元素,即可直接从2D图像中提取出完整的3D模型,无论是物体还是人像,都能实现高精度重建。重建后的模型支持360度旋转,视觉效果几乎无破绽。

Meta发布SAM 3D系列模型与SAM 3,引领3D重建与图像分割技术革新 SAM 3D  3D重建 图像分割 生成式AI 第1张

SAM的全称为Segment Anything Model,意为“分割一切”模型。Meta此前已开源SAM 1和SAM 2这两款2D图像分割模型,成为该领域的标杆之作。

在SAM 3D系列模型发布的同一天,此前在ICLR大会审稿期间就引发广泛关注的SAM 3也正式亮相。SAM 3图像分割模型的创新点在于引入了“可提示概念分割”功能。

以往,大多数图像分割模型只能基于有限预设标签进行分割,而SAM 3允许用户输入如“狗”、“大象”或“动物”等具体标签或整体概念,甚至支持“穿着黑色外套、戴着白色帽子的人”这样的详细描述,从而完成图像分割,极大提升了模型的通用性和灵活性。

Meta发布SAM 3D系列模型与SAM 3,引领3D重建与图像分割技术革新 SAM 3D  3D重建 图像分割 生成式AI 第2张

SAM 3还具备极快的推理速度,在单张英伟达H200 GPU上,SAM 3能在约30毫秒内识别一张包含超过100个可检测物体的图片。

SAM 3的发布引发了行业热议,英伟达开发者技术专家Nader Khalil感叹道:“这可能标志着计算机视觉的ChatGPT时刻已经到来,强大的分割功能意味着用户通过简单点击就能训练计算机视觉模型,这令人震撼。”

Meta发布SAM 3D系列模型与SAM 3,引领3D重建与图像分割技术革新 SAM 3D  3D重建 图像分割 生成式AI 第3张

Meta已经开始将SAM 3D Objects和SAM 3应用于实际业务。例如,Facebook Marketplace推出了新的“房间视图”功能,允许用户在购买家具前,直观预览家居装饰品在空间中的风格和适配度。

目前,SAM 3D系列模型和SAM 3均可在Meta最新打造的Segment Anything Playground中体验。SAM 3D已开源训练评估数据、基准、模型检查点、推理代码及参数化人类模型;SAM 3则开源了模型检查点、评估数据集和微调代码。

SAM 3D博客(内含论文、开源链接): https://ai.meta.com/blog/sam-3d/

SAM 3博客(内含论文、开源链接): https://ai.meta.com/blog/segment-anything-model-3/

01.标注近百万张图像,实现秒级全纹理3D重建

过去,三维建模一直受限于数据稀缺问题。与文本、图像等丰富资源相比,真实世界的3D数据极为有限,多数模型只能处理孤立合成资产或在简单背景下重建单个高分辨率物体,导致3D重建在现实场景中应用受限。

SAM 3D Objects的出现打破了这一局限。通过高效的数据注释引擎,它实现了大规模自然图像上3D物体的精细标注:近百万张图像,生成了超过314万个网格模型。

Meta发布SAM 3D系列模型与SAM 3,引领3D重建与图像分割技术革新 SAM 3D  3D重建 图像分割 生成式AI 第4张

这一过程融合了“众包+专家”模式:普通数据标注者对模型生成的多个选项进行评分,而复杂部分则由资深3D艺术家处理。

SAM 3D Objects借鉴了大型语言模型的训练理念,将合成数据学习重新定义为“三维预训练”,再通过后续微调,使模型在真实图像上表现卓越。

这种方法不仅提升了模型的鲁棒性和输出质量,还促进了数据生成效率,实现了数据引擎与模型训练的正向循环。

为验证成果,团队与艺术家合作建立了SAM 3D艺术家对象数据集(SA-3DAO),这是首个专门评估物理世界图像中单幅3D重建能力的数据集,相比现有基准,其图像和物体更具挑战性。

Meta发布SAM 3D系列模型与SAM 3,引领3D重建与图像分割技术革新 SAM 3D  3D重建 图像分割 生成式AI 第5张

性能方面,SAM 3D Objects在一对一的人类偏好测试中以5:1的优势领先现有模型。同时,结合扩散捷径和优化算法,它能在几秒钟内完成全纹理3D重建,实现近乎实时的三维应用,如为机器人提供即时视觉感知。

该模型不仅能重建物体的形状、纹理和姿态,还支持用户自由操控摄像机,从多角度观察场景。这意味着即使面对小物体、遮挡或间接视角,SAM 3D Objects也能从日常照片中提取三维细节。

当然,模型仍有改进空间。当前输出分辨率有限,复杂物体的细节可能缺失;同时,物体布局预测以单个物体为主,尚未实现多物体的物理交互推理。

未来,通过提高分辨率和引入多物体联合推理,SAM 3D Objects有望在真实世界场景中实现更精细、自然的三维重建。

02.三维重建更具交互性,推出新型开源3D格式

SAM 3D Objects专注于物体三维重建,而SAM 3D Body则致力于人体三维重建。SAM 3D Body能从单张图像中精确估算人体的三维姿态和形状,即便面对异常姿势、局部遮挡或多人复杂场景,也能稳定输出。

值得注意的是,SAM 3D Body支持提示输入,用户可通过分割掩码、二维关键点等方式引导和控制模型预测,使三维重建更具交互性和可控性。

SAM 3D Body的核心是一种名为Meta Momentum Human Rig(MHR)的开源3D网格格式,它将人体骨骼结构与软组织形状分离,从而提升了模型输出的可解释性。

模型采用Transformer Encoder-Decoder架构,图像编码器能捕捉身体部位的高分辨率细节,而网格解码器支持基于提示的三维网格预测。这种设计让用户不仅能获得精确的三维人体模型,还能在交互中灵活调整结果。

数据方面,SAM 3D Body研究团队整合了数十亿张图像、多机位高质量视频及专业合成数据,通过自动化数据引擎筛选出罕见姿势、遮挡或复杂服装等高价值图像,形成约800万张高质量训练样本。

这种数据策略使模型在多样化场景中保持强大鲁棒性,同时结合基于提示的多步细化训练,使三维预测与二维视觉证据对齐更精确。

发布的基准结果显示,SAM 3D Body在多个三维人体基准测试中取得显著优势,准确性和稳健性均领先以往模型。

Meta发布SAM 3D系列模型与SAM 3,引领3D重建与图像分割技术革新 SAM 3D  3D重建 图像分割 生成式AI 第6张

此外,团队开放了MHR模型,这一参数化人体模型在商业许可下可供使用,使Meta的技术如Codec Avatars等得以落地。

SAM 3D Body目前主要处理单人场景,尚未支持多人或人与物体的交互预测,这限制了对相对位置和物理互动的准确推理。同时,其手部姿势估计精度仍落后于专门的手部姿势估计方法。

未来,SAM 3D Body计划将人与物体、环境互动纳入训练,并提升手部姿势重建精度,使模型在真实场景中更全面、自然。

03.分割灵活性大幅提升,AI深度协同数据构建

SAM 3D系列模型代表了Meta在三维视觉重建领域的突破,而SAM 3则延续了Meta在2D图像分割领域的探索。

SAM 3是一款统一模型,能基于文本、示例图像或视觉提示实现对象的检测、分割和跟踪,其开放性和交互性增强了视觉创作和科学研究的可能性。

通过“可提示概念分割”,SAM 3能识别更复杂、细微的概念,例如“条纹红伞”或“手中未持礼盒的坐着的人”。

为衡量大词汇量分割性能,Meta同步推出了Segment Anything with Concepts(SA-Co)数据集,这一基准覆盖了远超以往的数据概念,并对图像和视频中的开放式概念分割进行了挑战测试。

SAM 3模型支持多种提示形式,包括文本短语、示例图像以及视觉提示(如掩码、框选点),显著增强了分割灵活性。

Meta测试结果显示,SAM 3在SA-Co基准上的概念分割性能提升约100%。在用户偏好测试中,相较最强竞品模型OWLv2,SAM 3的输出更受青睐,比例达到约3:1(SAM 3:OWLv2)。

Meta发布SAM 3D系列模型与SAM 3,引领3D重建与图像分割技术革新 SAM 3D  3D重建 图像分割 生成式AI 第7张

此外,SAM 3在传统SAM 2的视觉分割任务中保持领先,零样本LVIS和目标计数等挑战性任务也取得显著进展。

数据构建方面,SAM 3采用人类与AI协同的数据引擎。这一流程包括使用SAM 3及Llama 3.2v模型自动生成初始分割掩码和标签,再由人类与AI注释者验证和修正。

AI注释者不仅能提升标注速度(负样本快约400%,正样本快约36%),还会自动筛选简单样本,让人力集中于最具挑战的案例。

同时,Meta利用概念本体(基于维基百科的概念字典)扩展数据覆盖范围,使稀有概念也能获得标注支持。

Meta发布SAM 3D系列模型与SAM 3,引领3D重建与图像分割技术革新 SAM 3D  3D重建 图像分割 生成式AI 第8张

消融实验显示,AI与人类注释结合的策略能显著提升模型性能,同时为新视觉域的自动数据生成提供可行途径。

模型架构上,SAM 3结合了多项先进技术:文本与图像编码器基于Meta Perception Encoder,检测器采用DETR架构,跟踪组件延续了SAM 2的记忆模块。

Meta发布SAM 3D系列模型与SAM 3,引领3D重建与图像分割技术革新 SAM 3D  3D重建 图像分割 生成式AI 第9张

通过统一架构处理检测、分割和跟踪任务,SAM 3在处理复杂视觉任务时避免了任务间冲突,同时保持了高性能和高效训练。

SAM 3在极端场景下仍有提升空间,例如零样本下识别专业术语(如“血小板”)或处理长复杂文本描述。在视频场景中,SAM 3将每个对象单独处理,使得多对象场景下效率和性能仍可优化。

Meta提供了模型微调方法和工具,鼓励开源社区针对特定任务和视觉域进行适配和扩展。

04.结语:生成式AI正重塑计算机视觉格局

生成式AI的兴起,正在反哺以计算机视觉为核心的上一轮AI浪潮。从数据集的构建到模型训练方式的创新,生成式AI扩展了CV模型的能力边界,带来了更多创新玩法。

此外,我们看到Meta已积极将相关技术应用于真实业务,随着数据和用户反馈的积累,SAM和SAM 3D系列模型或将带来更多惊喜。