突破SAM局限!美团提出X-SAM:统一框架横扫20+分割基准

点击下方卡片,关注“大模型之心Tech”公众号

戳我 -> 领取大模型巨卷干货

>>点击进入→大模型技术交流群

本文只做学术分享,如有侵权,联系删文

写在前面

当 Segment Anything Model(SAM) 以分割万物的能力震撼计算机视觉领域时,研究者们很快发现了它的局限:

无法同时处理多任务、难以应对类别特异性分割、更无法融入统一的多模态框架

如今,来自中山大学、鹏城实验室和美团的团队提出了 X-SAM,一个将分割范式从分割任何事物推向任何分割的突破性框架。

在超过 20 个分割数据集、7 大核心任务上,X-SAM 全面超越现有模型,不仅能处理文本指令驱动的分割任务,还能理解点、框、涂鸦等视觉提示,甚至能在跨图像场景中实现精准分割。这一成果不仅刷新了像素级视觉理解的基准,更让多模态大模型真正具备了「看懂像素」的能力。

从 SAM 的局限到 X-SAM 的突破:为什么需要统一分割框架?

SAM 的出现曾被视为视觉分割的「万能钥匙」,它能通过点、框等视觉提示精准分割图像中的任意对象。但在实际应用中,研究者们逐渐发现了它的「短板」:

  • 任务单一性:SAM 仅擅长基于视觉提示的单对象分割,无法同时处理语义分割(区分类别)、实例分割(区分个体)、全景分割(语义+实例)等复杂任务。

  • 模态割裂:作为纯视觉模型,SAM 无法理解文本指令,例如「分割图中的红色汽车」这类自然语言查询对它而言如同天书。

  • 多任务壁垒:现有分割模型往往针对单一任务设计,例如专门做交互式分割的模型无法处理开放词汇分割(分割训练中未见过的类别),工程落地时需要部署多个模型,效率极低。

与此同时,多模态大语言模型(MLLMs)如 LLaVA、GLaMM 虽然能理解文本与图像的关联,却止步于生成文本描述,无法输出精确的像素级分割结果。「能看懂图像却画不出边界,能分割像素却听不懂指令」,成为横亘在视觉分割与多模态理解之间的巨大鸿沟。

图1:X-SAM的能力示意图。(a)文本查询任务:通用(Gen.)分割、指代(Ref.)分割、推理(Rea.)分割以及定位对话生成(GCG)分割等。(b)视觉查询任务:单图像和跨图像的交互式(Inter.)分割与视觉定位(VGD)分割。(c)X-SAM在所有分割基准测试中均优于现有的多模态大型语言模型(MLLMs)。建议放大查看以获得最佳效果。

X-SAM 的诞生正是为了填补这一鸿沟。正如论文中所强调的:

  • 任务制定:将SAM转变为一种具有跨任务适用性的通用分割架构。

  • 模态增强:赋予大语言模型多模态输入处理能力。

  • 统一框架:开发一种连贯的方法,以有效地促进跨不同领域的综合分割应用。

表1:能力对比。我们在特定分割方法(灰色部分)和基于多模态大型语言模型(MLLM)的方法上对不同方法进行了比较。

本文首发于大模型之心Tech知识星球,硬核资料在星球置顶:加入后可以获取大模型视频课程、代码学习资料及各细分领域学习路线~

戳我 -> 获取大模型巨卷干货

技术解析:X-SAM 如何实现「万物可分」?

X-SAM 的核心创新在于将 SAM 的视觉分割能力与大语言模型的多模态理解能力深度融合,通过「统一输入格式」「双编码器架构」和「多阶段训练」三大支柱,实现了真正的「一站式」分割解决方案。

支柱一:统一输入格式,让所有任务「用同一种语言说话」

不同分割任务的输入形式千差万别:语义分割需要类别标签, referring 分割需要文本描述,交互式分割需要点或框。X-SAM 设计了一套统一的输入规则,让所有任务都能被模型「理解」:

  • 文本查询输入:用 <p> 和 </p> 标记需要分割的对象,例如「分割

    红色外套的女人

    」。对于需要生成描述并同步分割的任务(如 GCG 分割),模型会自动在输出文本中插入 <p> 标签,再用 <SEG> 标记分割结果的位置。
  • 视觉查询输入:引入 <region> 标签代表视觉提示(点、框、涂鸦等),格式为\<p>\<region>\</p>。模型会自动将视觉提示转换为特征,与文本指令融合处理。

通过这种设计,无论是「分割图中的猫」(文本指令)还是「分割这个框里的物体」(视觉提示),最终都会被转化为模型可统一处理的格式,为多任务融合奠定了基础。

支柱二:双编码器架构,兼顾全局理解与像素级细节

X-SAM 的架构堪称「视觉-语言」融合的典范,它包含五大核心模块:双编码器、双投影器、大语言模型(LLM)、分割连接器和分割解码器(如图 2 所示)。

图2:X-SAM的整体架构。X-SAM由双编码器、双投影器、一个语言模型、一个分割连接器和一个分割解码器组成。双编码器对图像进行处理并投影特征,使其与文本嵌入维度相匹配,随后这些特征与 token 化的文本一同输入到语言模型中,以实现指令引导的理解。SAM的特征与分割解码器相连,分割解码器利用大语言模型(LLM)的<SEG>\Token生成分割掩码。
  • 双编码器

    • 图像编码器(采用 SigLIP2-so400m)负责提取全局图像特征,帮助模型理解整体场景(如「这是一张街景图」)。

    • 分割编码器(基于 SAM-L)专注于细粒度像素特征,捕捉物体的边界细节(如「汽车的轮廓」)。

  • 双投影器: 由于视觉特征与语言特征的维度不同,X-SAM 用两个 MLP 投影器将图像特征和分割特征转换为与语言模型匹配的维度。其中,分割特征通过「像素洗牌」(pixel shuffle)操作缩减空间尺寸,确保高效处理。

  • 分割连接器(图3): SAM 输出的特征是单一尺度(1/16 分辨率),难以满足精细分割需求。X-SAM 设计了一个「分割连接器」,通过「补丁合并」(patch merge)和「补丁扩展」(patch expand)操作,生成 1/8、1/16、1/32 三种尺度的特征,让分割解码器能同时关注不同大小的物体。

图3:分割连接器的架构
  • 分割解码器: 这是 X-SAM 突破 SAM 局限的关键。不同于 SAM 一次只能分割一个对象,X-SAM 的解码器基于 Mask2Former 架构,能一次性输出多个分割掩码,并通过 LLM 生成的 <SEG> 标签关联对应的类别或描述。

  • 大语言模型(LLM): 采用 Phi-3-mini-4k-instruct 作为语言核心,负责解析文本指令、生成回答,并通过 <p><SEG> 等标签与视觉模块交互。例如,当用户提问「描述图片并分割所有车辆」时,LLM 会生成包含 <p> 汽车 </p><p> 卡车 </p><SEG> 的输出,指导分割解码器生成对应掩码。

支柱三:多阶段训练,让模型「学透」所有任务

为了让 X-SAM 在多任务上同时达到最优,研究团队设计了三步走的训练策略:

图4:X-SAM的多阶段训练流程。X-SAM执行多阶段训练过程,包括分割器微调、对齐预训练和混合微调。分割器微调:在分割数据集上训练分割器,以获得一个通用的分割器。对齐预训练:训练双投影器,使视觉特征与大型语言模型(LLM)特征对齐。混合微调:在混合数据集上对双投影器、分割解码器和大型语言模型(LLM)进行微调。
  1. 分割器微调: 在 COCO 全景分割数据集上训练分割编码器和解码器,目标是让模型学会一次性分割多个对象。损失函数包括分类损失(区分类别)、掩码损失(匹配像素边界)和 dice 损失(衡量掩码重叠度),确保分割精度。

  2. 对齐预训练: 在 LLaVA-558K 数据集上训练双投影器,冻结图像编码器、分割编码器和 LLM 的参数。这一步的核心是让视觉特征(图像和分割)与语言模型的词嵌入空间对齐,例如让「猫」的文本嵌入与图像中猫的视觉特征距离更近。

  3. 混合微调: 将多种任务的数据集(包括语义分割、referring 分割、VGD 分割、图像对话等)混合训练,同时更新所有模块参数。对于对话任务,采用自回归损失;对于分割任务,则同时使用自回归损失和分割损失。这种「一锅烩」的训练方式,让模型在不同任务间互相促进,而非互相干扰。

特别值得一提的是,团队还提出了「数据集平衡重采样」策略。由于不同任务的数据集大小差异极大(从 0.2K 到 665K 样本),他们通过动态调整采样频率,确保小数据集(如推理分割)不会被大数据集(如图像对话)淹没,最终在 t=0.1 的参数设置下取得最优平衡。

任务拓展:VGD 分割让模型「看懂视觉提示」

X-SAM 最亮眼的创新之一,是提出了「视觉定位(VGD)分割」这一新任务。传统的交互式分割只能根据视觉提示分割单个对象,而 VGD 分割要求模型根据点、框、涂鸦或掩码等视觉提示,分割图像中所有同类实例

例如,当用户用一个点标记图中的一只狗时,VGD 分割不仅要分割这只狗,还要自动找出并分割图中所有其他狗。更强大的是,X-SAM 还支持「跨图像 VGD 分割」:用一张图中的视觉提示,在另一张图中分割同类对象。

在 COCO-VGD 数据集上的实验显示,X-SAM 在点、涂鸦、框、掩码四种提示形式上的 AP(平均精度)分别达到 47.9、48.7、49.5、49.7,远超 PSALM 模型(仅 2.0-3.7)。这意味着 X-SAM 真正理解了视觉提示的「含义」,而不是简单地对提示区域进行分割。

全面霸榜:20+ 数据集验证「最强分割模型」

研究团队在 7 大核心任务、20 多个数据集上对 X-SAM 进行了全面测试,结果显示它在所有任务中均达到或超越当前最佳水平:

表2:综合性能对比。我们将X-SAM与特定分割模型(灰色部分)和多模态大型语言模型(MLLMs)进行了比较。“✗”表示不支持的任务,“–”表示未报告的结果。X-SAM仅用一个模型就在所有分割任务上取得了最先进的性能。最佳结果用粗体显示,次佳结果用下划线标注。
  • 通用分割:在 COCO 全景分割中,X-SAM 的 PQ(全景质量)为 54.7,接近 Mask2Former(57.8),远超 OMG-LLaVA(53.8),证明其在基础分割任务上的稳健性。

  • 开放词汇分割:在 A150-OV 数据集上,X-SAM 的 AP(平均精度)达到 16.2,远超 ODISE(14.4)和 PSALM(9.0),展现出分割「未见过的类别」的强大泛化能力。

表3:指代分割对比。我们在基于(多模态)大型语言模型的指代分割基准测试上对各种方法进行了评估。
  • Referring 分割:在 RefCOCO、RefCOCO+、RefCOCOg 三大数据集上,X-SAM 的 cIoU(修正交并比)分别为 85.1、78.0、83.8,大幅领先 PSALM(83.6、72.9、73.8)和 Sa2VA(81.6、76.2、78.7),即使模型参数更小(3.8B vs 8B),仍能实现反超。

  • 推理分割:在需要逻辑推理的分割任务中(如「分割用来播放音乐的东西」),X-SAM 的 gIoU(广义交并比)达到 56.6,超过专门优化推理能力的 LISA-7B(52.9),证明其融合语言推理与视觉分割的能力。

表4:定位对话生成(GCG)分割对比。†表示使用GranD数据集进行预训练(Rasheed等人,2024)。
  • GCG 分割:在「描述图像并同步分割」任务中,X-SAM 的 mIoU(平均交并比)为 69.4,远超 GLaMM(65.8)和 OMG-LLaVA(65.5),既能生成准确的文本描述,又能输出精确的掩码。

  • 交互式分割:在点、框提示下,X-SAM 的 mIoU 分别为 65.4 和 70.0,超过 SAM-L(51.8、76.6)和 PSALM(64.3、67.3),在未专门训练的情况下仍表现优异。

表5:视觉定位(VGD)分割对比。†表示遵循X-SAM设置的评估结果。
  • VGD 分割:如前文所述,X-SAM 以 47.9-49.7 的 AP 成绩大幅领先现有模型,验证了新任务设计的价值。

更令人惊叹的是,这些成绩均由同一个模型实现。无需针对不同任务调整架构或参数,X-SAM 就能在像素级理解的「全场景」中保持顶尖水准。

消融实验:揭秘 X-SAM 性能背后的关键设计

为了验证各模块的必要性,团队进行了细致的消融实验,结果揭示了几个关键发现:

表6:微调(FT)的消融实验
  • 混合微调的价值:仅用单一任务微调时,模型在开放词汇分割(A150-OV)的 AP 为 16.4,而混合微调后提升至 22.4,推理分割的 gIoU 从 48.2 跃升至 57.1。这证明多任务联合训练能显著提升模型的泛化能力,尽管会导致通用分割的 PQ 小幅下降(0.8),但整体收益远超损失。

表7:双编码器的消融实验。(Swin ^{\dagger}) 初始化自 Mask2Former(M2F)(Cheng 等人,2022a)。
  • 双编码器的优势:对比仅用图像编码器(ViT)、仅用分割编码器(Swin 或 SAM)的方案,双编码器组合能同时优化分割精度和语言理解。其中,SAM 作为分割编码器时,GCG 分割的 mIoU 达到 69.4,远超 Swin 编码器(62.5),证明 SAM 的视觉特征对分割任务至关重要。

表8:多阶段(M-Stage)训练的消融实验。S1:第一阶段,S2:第二阶段,S3:第三阶段,Conv.:对话。表8:关于……的消融实验
  • 多阶段训练的作用:跳过分割器微调(仅用阶段 3)时,COCO 全景分割的 PQ 仅为 45.2,而加入阶段 1 后提升至 54.5;加入阶段 2 对齐预训练后,图像对话的准确率再提升 2.1%。三步训练环环相扣,缺一不可。

表9:分割器架构的消融实验。Conn.:连接器,M-Scale:多尺度,Con.:卷积,M2F:Mask2Former。多尺度,连接器,M-Scale:
  • 分割器架构的影响:采用 Mask2Former 解码器比 SAM 原生解码器的 PQ 提升 9.2,加入卷积连接器和多尺度特征后,PQ 再提升 1.3,证明精细的特征处理对分割精度的关键作用。

局限与未来:从图像到视频,分割之路仍在延伸

尽管 X-SAM 表现惊艳,论文也坦诚指出了其局限:

  • 任务平衡难题:联合训练时,部分分割任务的性能会因对话数据的干扰而下降,如何设计更合理的数据集混合策略仍是挑战。

  • 性能不均:在某些细分任务上(如语义分割的 mIoU),X-SAM 仍略逊于专门优化的模型,规模扩大(更大参数、更多数据)可能是突破方向。

未来,研究团队计划将 X-SAM 与 SAM2(支持视频分割的模型)结合,拓展至动态场景;同时将 VGD 分割延伸到视频领域,实现「跨时空视觉定位」。这些方向一旦突破,视觉分割将从静态图像迈向更广阔的视频理解场景。

参考

论文标题:X-SAM: From Segment Anything to Any Segmentation

论文链接:https://arxiv.org/pdf/2508.04655

开源链接:https://github.com/wanghao9610/X-SAM

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。 

星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐,等等。

星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值