SINE:上下文示例驱动,打造真正的通用分割模型 | NeurIPS‘24

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: A Simple Image Segmentation Framework via In-Context Examples

创新点


  • 探索了通用的分割模型,发现现有方法在上下文分割中面临任务模糊性的问题,因为并非所有的上下文示例都能准确传达任务信息。
  • 提出了一个利用上下文示例的简单图像分割框架SINESegmentation framework via IN-context Examples),利用了一个Transformer编码-解码结构,其中编码器提供高质量的图像表示,解码器则被设计为生成多个任务特定的输出掩码,以有效消除任务模糊性。
  • SINE引入了一个上下文交互模块,以补充上下文信息,并在目标图像与上下文示例之间产生关联,以及一个匹配Transformer,使用固定匹配和匈牙利算法消除不同任务之间的差异。
  • 完善了当前的上下文图像分割评估系统,实验结果表明,SINE可以处理广泛的分割任务,包括少量样本的语义分割、少量样本的实例分割和视频目标分割。

内容概述


图像分割涉及在像素级别上定位和组织概念,比如语义分割、实例分割、全景分割、前景分割和交互分割。然而,现有的大多数分割方法都是针对特定任务量身定做的,无法应用于其他任务。

最近一些工作探索了通用分割模型,通过上下文学习解决多样且无限的分割任务。上下文分割模型需要理解上下文示例传达的任务和内容信息,并在目标图像上分割相关概念,但并不是所有的上下文示例都能准确传达任务信息。例如当提供一个特定个体的照片,是仅限于个体本身、涵盖所有人的实例分割,还是集中于语义分割?模糊的上下文示例可能使传统的上下文分割模型难以清晰地定义不同任务之间的边界,从而导致不期望的输出。

为了解决这个问题,论文提出了基于上下文示例的简单图像分割框架SINESegmentation framework via IN-context Examples)。受到SAM模型的启发,SINE预测针对不同复杂度任务定制的多个输出掩码。这些任务包括相同物体、实例到整体语义概念。SINE统一了现有的各种粒度的分割任务,旨在实现更广泛的任务泛化。

SegGPT相比,SINE能够在可训练参数更少的情况下有效地解决上下文分割中的任务模糊性问题,而SegGPT仅输出语义分割结果。此外,论文进一步将少样本实例分割引入当前的评估系统,以便全面评估这些模型。

SINE


SINE是一个基于查询的分割模型,遵循DETRMask2Former的设计。使用相同对象(ID)查询 q i d \textbf{q}_{id} qid 来识别和定位目标图像中与参考图像中具有相同对应关系的对象,使用可学习的实例查询 q i n s ∈ R S × C \textbf{q}_{ins} \in \mathbb{R}^{S \times C} qinsRS×C 来识别和定位目标图像中与参考图像具有相同语义标签的对象。

SINE基于经典的Transformer结构,引入了一些针对上下文分割任务的有效设计,包括一个冻结的预训练图像编码器、一个上下文交互模块和一个轻量级匹配Transformer (M-Former) 解码器。

上下文交互

上下文交互的目的是补充上下文信息,并在参考图像特征和目标图像特征之间产生关联。

  • 掩码池化

为每个掩码分配不同的ID标签,将参考掩码 m r \textbf{m}_r mr 转换为ID掩码 m i d ∈ R N × H × W \textbf{m}_{id} \in \mathbb{R}^{N \times H \times W} midRN×H×W ,通过将具有相同类别标签的掩码合并来得到语义掩码 m s e m ∈ R M × H × W \textbf{m}_{sem} \in \mathbb{R}^{M \times H \times W} msemRM×H×W ,其中 N N N M M M 分别是ID掩码和语义掩码的数量。

然后,使用这些掩码对参考特征 F r \textbf{F}_r Fr 进行池化,获得提ID标记 t i d ∈ R N × C \textbf{t}_{id} \in \mathbb{R}^{N \times C} tidRN×C 和语义标记 t s e m ∈ R M × C \textbf{t}_{sem} \in \mathbb{R}^{M \times C} tsemRM×C

  • 上下文融合模块

上下文融合模块该模块是一个Transformer块,包括自注意力机制、交叉注意力机制和前馈网络,实现参考特征和目标特征之间的上下文关联:

< q i d , p s e m , F t ′ > = I n C o n t e x t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值