当前位置：首页 > 科技资讯 > 正文

Meta新突破：SAM 3实现概念驱动分割

主机测评网
科技资讯
2026-05-04
812

只需提出概念，SAM 3就能准确理解并执行分割任务。

Meta再度引领潮流？

9月12日，一篇题为「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」的匿名论文在ICLR 2026上发布，引发广泛关注。

Meta新突破：SAM 3实现概念驱动分割 SAM 3 概念分割视觉概念人机交互第1张

论文标题：SAM 3: Segment Anything with Concepts
论文地址：[https://openreview.net/forum?id=r35clVtGzw](https://openreview.net/forum?id=r35clVtGzw)

鉴于论文的风格与Meta过往作品相似，加之SAM系列一直由Meta推出，外界几乎断定，SAM 3是Meta「Segment Anything」系列的最新力作。

Meta新突破：SAM 3实现概念驱动分割 SAM 3 概念分割视觉概念人机交互第2张

从时间线来看，该论文的发布与Meta的既定计划不谋而合。SAM 1于2023年4月发布，提名当年ICCV最佳论文，其零样本分割技术令研究者惊叹，被誉为CV领域的「GPT-3时刻」。SAM 2于2024年7月问世，在SAM 1的基础上实现了静态图像和动态视频内容的实时、可提示对象分割，将图像和视频分割功能整合至同一系统。

如今，又过去了一年，SAM 3的登场可谓恰逢其时。

那么，SAM 3究竟有何新进展呢？

它定义了一个更高级的任务：可提示概念分割（Promptable Concept Segmentation, PCS）。

即，将文本和/或图像示例作为输入，为与概念匹配的对象预测实例掩码和语义掩码，同时在视频帧间保持对象身份的一致性。该工作的核心在于识别原子视觉概念，因此，输入文本被限制为简单的名词短语，如「红苹果」或「条纹猫」，只需描述所需内容，它就能在图像或视频中找到并分割出每个对应实例。

这意味着，分割技术终于学会了理解语言，但并非模糊语义联想，而是基于视觉的极简理解方式。只需提出概念，它就能准确执行分割任务。

有人或许记得，SAM 1就具备文本功能，这次又有何不同？

论文明确指出，在SAM 1中，文本提示功能「尚未完全开发」（were not fully developed）。实际上，SAM 1和SAM 2的重点在于视觉提示（如点、框、掩码）。

Meta新突破：SAM 3实现概念驱动分割 SAM 3 概念分割视觉概念人机交互第3张