智东西11月20日报道,今天,Meta宣布推出一个全新的模型家族SAM 3D,并发布两款3D模型,分别为用于物体和场景重建的SAM 3D Objects和用于人体和体型估计的SAM 3D Body。
让我们一睹为快:SAM 3D系列模型展现出强大的能力,用户只需在图像中点击想要提取的元素,系统便能瞬间从2D图像中抽取出一个完整的3D模型。无论是精细的物体还是生动的人像,都能被精准重建。即便将重建后的模型进行360度旋转观察,其细节依然经得起推敲,几乎看不出任何破绽。
SAM的全称是Segment Anything Model,直译即为“分割一切”模型。Meta此前已先后开源了SAM 1和SAM 2这两款2D图像分割领域的标杆之作,奠定了其在业界的领先地位。
值得关注的是,在SAM 3D系列模型发布的同一天,此前在ICLR大会审稿期间就已引发广泛热议的SAM 3也正式与大家见面。SAM 3图像分割模型的核心亮点在于引入了“可提示概念分割”这一创新功能。
以往,大多数图像分割模型只能依赖有限的预设标签进行工作,而SAM 3则打破了这一局限。现在,用户可以直接输入如“狗”、“大象”、“斑马”这样具体的标签,或“动物”这类整体概念,甚至是“穿着黑色外套、戴着白色帽子的人”这样复杂的描述,模型都能精准理解并完成相应的图像分割任务。这无疑极大地提升了图像分割模型的通用性和灵活性。
除了概念理解的飞跃,SAM 3在推理速度上也交出了亮眼的成绩单。在单张英伟达H200 GPU上,SAM 3仅需约30毫秒就能识别出一张包含超过100个可检测物体的图片,效率之高令人惊叹。
SAM 3的发布,让英伟达开发者技术总结Nader Khalil不禁感叹:“这可能就是计算机视觉领域的ChatGPT时刻,如此强大的分割功能意味着用户只需简单点击,就能训练自己的计算机视觉模型,这太疯狂了。”
Meta已经迅速将SAM 3D Objects和Sam 3的技术应用于实际场景。在其Facebook Market平台上,现在新增了“房间视图”功能,让用户在购买家具前能够更直观地感受心仪的家居装饰品在自家空间中的风格和尺寸是否合适,极大地提升了购物体验。
目前,无论是SAM 3D系列模型还是SAM 3,都已能在Meta最新打造的Segment Anything Playground中进行在线体验。同时,Meta秉持开源精神,已将SAM 3D的训练和评估数据、评估基准、模型检查点、推理代码以及参数化人类模型全部开源,SAM 3也开放了模型检查点、评估数据集和微调代码,供全球开发者使用和二次开发。
SAM 3D博客(内含论文、开源链接): https://ai.meta.com/blog/sam-3d/
SAM 3博客(内含论文、开源链接): https://ai.meta.com/blog/segment-anything-model-3/
长久以来,三维建模领域一直受困于真实世界数据的匮乏。与海量的文本、图像数据相比,高质量的3D数据少之又少。这导致大多数现有模型要么只能处理孤立的合成资产,要么仅在简单背景下重建单个高分辨率物体,难以应对复杂多变的现实场景。
SAM 3D Objects的诞生,为这一困境带来了转机。借助其强大的数据注释引擎,它在大规模自然图像上实现了精细的3D物体标注:近百万张图像,生成了超过314万个网格模型。
这一成就得益于“众包+专家”协同的数据处理模式。普通数据标注者对模型生成的多个候选结果进行评分,而最具挑战性的部分则交由经验丰富的3D艺术家完成。
SAM 3D Objects还借鉴了大型语言模型的训练理念,将合成数据学习重新定义为“三维预训练”,随后通过后续阶段的微调,使模型在真实图像上也能发挥出色。
这种创新方法不仅提升了模型的鲁棒性和输出质量,也反过来优化了数据生成效率,实现了数据引擎与模型训练之间的正向循环。
为了客观评估成果,研究团队与艺术家合作建立了SAM 3D艺术家对象数据集(SA-3DAO),这是首个专门用于评估从物理世界图像中进行单幅3D重建能力的数据集。与现有基准相比,该数据集中的图像和物体更具挑战性和多样性。
在性能方面,SOTA(当前最优)模型也甘拜下风。在一对一的人类偏好测试中,用户以5:1的压倒性优势更青睐SAM 3D Objects的输出。同时,结合扩散捷径和优化算法,它能在短短几秒内完成全纹理3D重建,为机器人即时视觉感知等实时三维应用铺平了道路。
该模型不仅能准确重建物体的形状、纹理和姿态,还允许用户自由操控摄像机,从任意角度观察场景细节。这意味着即使面对小物体、部分遮挡或间接视角,SAM 3D Objects也能从日常照片中提取出丰富的三维信息。
当然,如同任何前沿技术,该模型仍有提升空间。目前其输出分辨率有限,复杂物体的部分细节有时会丢失;同时,物体布局预测仍以单个物体为主,对多物体间的物理交互推理尚未实现。
展望未来,通过提高分辨率和引入多物体联合推理,SAM 3D Objects有望在真实世界场景中实现更精细、更自然的三维重建,应用前景广阔。
SAM 3D Objects专注于物体的三维重建,而SAM 3D Body则将焦点对准了人体的三维重建。SAM 3D Body能够从单张图像中精确估算出人体的三维姿态和形状,即便面对异常姿势、局部遮挡,甚至复杂的多人场景,依然能稳定输出高质量结果。
特别值得一提的是,SAM 3D Body支持提示输入,用户可以通过分割掩码、二维关键点等方式引导和控制模型的预测,让人体三维重建过程更具交互性和可控性。
SAM 3D Body的核心是一种名为Meta Momentum Human Rig(MHR)的开源3D网格格式。它将人体的骨骼结构与软组织形状巧妙分离,从而大大提高了模型输出的可解释性和灵活性。
模型采用了Transformer Encoder-Decoder架构,图像编码器能够捕捉身体各部位的高分辨率细节,而网格解码器则支持基于提示的三维网格预测。这种设计让用户不仅能获得精确的三维人体模型,还能在交互中灵活调整和微调结果,实现个性化定制。
在数据层面,SAM 3D Body研究团队整合了数十亿张图像、多机位高质量视频以及专业合成数据,通过自动化数据引擎筛选出包含罕见姿势、遮挡或复杂服装等高价值图像,最终形成了约800万张高质量训练样本。
这种精心设计的数据策略使得模型在面对多样化场景时依然保持强大的鲁棒性。同时,结合基于提示的多步细化训练,三维预测与二维视觉证据的对齐更加精确。
发布的基准测试结果显示,SAM 3D Body在多个三维人体基准测试中均取得了显著优势,其准确性和稳健性全面领先于以往模型。
此外,团队还开放了MHR模型,这一参数化人体模型在商业许可下可供使用,使得Meta的Codec Avatars等技术得以在实际应用中落地。
目前,SAM 3D Body主要针对单人处理,尚未支持多人或人与物体的交互预测,这在一定程度上限制了对相对位置和物理互动的准确推理。同时,其手部姿势的估计精度仍有待提升,与专门的手部姿势估计方法相比存在差距。
未来,SAM 3D Body计划将人与物体、环境互动纳入训练体系,同时着力提升手部姿势重建精度,使模型在真实场景中的表现更全面、更自然。
如果说SAM 3D系列模型标志着Meta在三维视觉重建领域的首次重大突破,那么SAM 3则是其在2D图像分割领域的又一次重要延续和深化。
SAM 3是一款统一的模型,能够基于文本、示例图像或视觉提示实现对象的检测、分割和跟踪。其开放性和交互性为视觉创作和科学研究开辟了新的可能性。
通过“可提示概念分割”,SAM 3能够识别更复杂、细微的概念,例如“条纹红伞”或“手中未持礼盒的坐着的人”,对自然语言的理解能力达到了新高度。
为了衡量大词汇量下的分割性能,Meta同步推出了Segment Anything with Concepts(SA-Co)数据集。这一基准覆盖了远超以往的数据概念,并对图像和视频中的开放式概念分割进行了严苛的挑战测试。
SAM 3模型支持多种提示形式,包括文本短语、示例图像以及视觉提示(如掩码、框选点),极大地增强了分割的灵活性和实用性。
Meta公布的测试结果显示,SAM 3在SA-Co基准上的概念分割性能实现了约100%的显著提升。在用户偏好测试中,相较最强竞品模型OWLv2,用户更偏爱SAM 3的输出,比例高达约3:1(SAM 3:OWLv2)。
此外,SAM 3在传统SAM 2擅长的视觉分割任务中同样保持领先,零样本LVIS和目标计数等挑战性任务也取得了显著进展。
在数据构建方面,SAM 3采用了人类与AI协同的数据引擎。这一高效流程包括使用SAM 3及Llama 3.2v模型自动生成初始分割掩码和标签,再由人类与AI注释者共同验证和修正。
AI注释者不仅将标注速度提升了数倍(负样本快约400%,正样本快约36%),还会自动筛选出简单样本,将人力集中在最具挑战的案例上。
同时,Meta利用概念本体(基于维基百科的概念字典)扩展了数据覆盖范围,使稀有概念也能获得充分的标注支持。
消融实验显示,AI与人类注释相结合的策略能显著提升模型性能,同时为新的视觉域自动数据生成提供了可行途径。
在模型架构上,SAM 3融合了多项先进技术:文本与图像编码器基于Meta Perception Encoder,检测器采用DETR架构,跟踪组件则延续了SAM 2的记忆模块。
通过统一架构处理检测、分割和跟踪任务,SAM 3在处理复杂视觉任务时能够有效避免任务间冲突,同时保持了高性能和高效训练。
当然,SAM 3在某些极端场景下仍有提升空间,例如在零样本下识别专业术语(如“血小板”)或处理长而复杂的文本描述。在视频场景中,由于每个对象被单独处理,多对象场景下的效率和性能仍可进一步优化。
Meta提供了模型微调方法和相关工具,鼓励开源社区针对特定任务和视觉域进行适配和扩展,共同推动技术进步。
生成式AI的蓬勃兴起,正以前所未有的方式反哺着上一轮以计算机视觉为核心的AI浪潮。从数据集的创新打造到模型训练方式的深刻变革,生成式AI不断扩展着CV模型的能力边界,也催生了更多新颖的应用玩法。
此外,我们也欣喜地看到Meta已经将相关技术积极应用于真实业务场景。随着海量数据和用户反馈的持续积累,SAM和SAM 3D系列模型或将给我们带来更多的惊喜,开启计算机视觉的崭新篇章。
本文由主机测评网于2026-02-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260225716.html