当前位置:首页 > 科技资讯 > 正文

Meta新突破:SAM 3实现概念驱动分割

只需提出概念,SAM 3就能准确理解并执行分割任务。

Meta再度引领潮流?

9月12日,一篇题为「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」的匿名论文在ICLR 2026上发布,引发广泛关注。

Meta新突破:SAM 3实现概念驱动分割 SAM 3 概念分割 视觉概念 人机交互 第1张

  • 论文标题:SAM 3: Segment Anything with Concepts
  • 论文地址:[https://openreview.net/forum?id=r35clVtGzw](https://openreview.net/forum?id=r35clVtGzw)

鉴于论文的风格与Meta过往作品相似,加之SAM系列一直由Meta推出,外界几乎断定,SAM 3是Meta「Segment Anything」系列的最新力作。

Meta新突破:SAM 3实现概念驱动分割 SAM 3 概念分割 视觉概念 人机交互 第2张

从时间线来看,该论文的发布与Meta的既定计划不谋而合。SAM 1于2023年4月发布,提名当年ICCV最佳论文,其零样本分割技术令研究者惊叹,被誉为CV领域的「GPT-3时刻」。SAM 2于2024年7月问世,在SAM 1的基础上实现了静态图像和动态视频内容的实时、可提示对象分割,将图像和视频分割功能整合至同一系统。

如今,又过去了一年,SAM 3的登场可谓恰逢其时。

那么,SAM 3究竟有何新进展呢?

它定义了一个更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS)

即,将文本和/或图像示例作为输入,为与概念匹配的对象预测实例掩码和语义掩码,同时在视频帧间保持对象身份的一致性。该工作的核心在于识别原子视觉概念,因此,输入文本被限制为简单的名词短语,如「红苹果」或「条纹猫」,只需描述所需内容,它就能在图像或视频中找到并分割出每个对应实例。

这意味着,分割技术终于学会了理解语言,但并非模糊语义联想,而是基于视觉的极简理解方式。只需提出概念,它就能准确执行分割任务。

有人或许记得,SAM 1就具备文本功能,这次又有何不同?

论文明确指出,在SAM 1中,文本提示功能「尚未完全开发」(were not fully developed)。实际上,SAM 1和SAM 2的重点在于视觉提示(如点、框、掩码)。

Meta新突破:SAM 3实现概念驱动分割 SAM 3 概念分割 视觉概念 人机交互 第3张

它们未能解决一个更广泛的任务:即找到并分割出输入内容中(例如一段视频里所有的「猫」)的某一概念的所有实例。

Meta新突破:SAM 3实现概念驱动分割 SAM 3 概念分割 视觉概念 人机交互 第4张

简而言之,SAM 3让用户从「逐个点击」升级至「告知模型概念,由其完成分割」。

Meta新突破:SAM 3实现概念驱动分割 SAM 3 概念分割 视觉概念 人机交互 第5张

在可提示视觉分割方面(左图),SAM 3性能优于SAM 2;同时,在可提示概念分割方面(右图)也取得进展。用户可通过简短名词短语、图像示例或两者组合来指定视觉概念并分割其所有实例。

在论文提出的新基准SA-Co上,SAM 3的性能较之前系统提升至少两倍。在多个公开基准测试中取得SOTA成绩。例如,在LVIS数据集上,其零样本掩码平均精度达47.0,之前最佳纪录为38.5。

此外,模型在单个H200 GPU上处理超过百个物体的图像仅需30毫秒。

然而,评论区对该工作提出质疑。有人认为根据文本描述分割物体的想法并不新颖,早已在学术界被称为「指代分割」,并已有大量研究。因此,有人认为这项工作只是给旧概念「重新命名」和包装。

Meta新突破:SAM 3实现概念驱动分割 SAM 3 概念分割 视觉概念 人机交互 第6张

另有评论认为,Meta只是在追赶开源社区的步伐,因为社区早已通过组合不同模型(如检测模型与LLM API结合)实现类似功能。

Meta新突破:SAM 3实现概念驱动分割 SAM 3 概念分割 视觉概念 人机交互 第7张