EXITS
将极值点视为真实实例掩模的一部分并将它们传播以识别潜在前景和背景点,所有这些都用于训练伪标签生成器,然后由生成器给出的伪标签反过来用于最终模型的监督学习。来源:晓飞的算法工程笔记 公众号
论文: Extreme Point Supervised Instance Segmentation
Introduction
实例分割是一项同时预测个体对象的类别和掩模的任务,由于深度神经网络的监督学习取得了显著进展。然而,手动为每个实例注释像素级掩模成本过高,这通常导致类别多样性和训练数据量的不足。这一问题引导研究界转向标签高效学习方法,如弱监督学习和半监督学习。
在这个势头上,最近使用box
监督学习实例分割引起了相当大的关注。为了使用box
监督训练实例分割模型,这些方法采用了边界框紧密性先验,即垂直(或水平)穿过边界框的线必须包含至少一个属于对象的像素(见图1
)。这个先验通过各种损失函数来表达。尽管box
监督已经被证明在保持注释成本低的同时对学习实例分割非常有效,但在这个方向上还有进一步改进的空间,特别是由于它忽视了极值点,这是常见的box
注释过程的副产品,提供了一个有助于估计实例掩模的强有力线索。
如今,极值点在边界框注释过程中是免费提供的,人类注释者被指示点击目标对象的四个极值点,即最顶部、最左侧、最底部和最右侧的点,而不是点击边界框的两个角点。这是因为前者通常需要较少的注释时间,而后者通常需要多次调整初始框标签。此外,由于它们绝对是目标真实掩模的一部分,极值点为分割提供了一个在box
监督中缺失的强有力线索。
受此启发,论文研究了使用极值点进行弱监督学习以进一步提高性能而不增加注释成本的实例分割,提出了EXtreme point supervised InsTance Segmentation
(EXITS
)框架,整体流程如图2
所示。该框架将极值点视为真实实例掩模的一部分,并利用它们作为训练伪标签生成器的监督。然后,生成器产生的伪分割标签反过来用于最终模型的监督学习,该模型可以是任何用于实例分割的任意网络。
EXITS
的成功关键在于如何使用极值点训练伪标签生成器。一种直接的方法是将极值点视为前景,边界框外的点视为背景,然后利用它们进行监督学习。然而,以这种方式训练的伪标签生成器无法生成清晰的对象掩模,因为由于极值点的稀疏性,在训练过程中大多数对象区域保持未标记状态。为了解决这个问题,EXITS
通过传播box
外的极值点和背景点来估计边界框内的潜在前景和背景点。传播过程基于预训练的Transformer
编码器导出的点之间的成对语义相似性,从而分别揭示与极值点和附近背景语义上相似的前景和背景候选点。检索到的点与极值点和明确的背景点一起作为训练伪标签生成器的监督。
如图1
所示,伪标签生成器生成了高质量的伪掩模,特别是当目标被分成多个部分时,伪分割标签的增强质量导致了我们最终模型性能的提升。这一成功之处在于标签传播是在所有点的全连接图上进行的,因此可以将极值点传播到空间上相距较远的点,减轻了边界框紧密性先验在遮挡情况下被违反的副作用。传统的基于边界框监督的方法在这种情况下往往失败,因为它们严重依赖于先验信息。
为了定量比较分开对象的伪标签质量,在Separated COCO
上测量了伪标签质量,这是COCO
的一个子集,仅包含分开的对象。在该数据集上,论文的方法在mIoU
上超过了先前最佳方法7.3
个百分点。论文进一步在三个公共基准数据集PASCAL VOC
、COCO
和LVIS
上评估了EXITS
,在这些数据集上,EXITS
优于所有先前基于边界框监督的方法。
简而言之,论文的主要贡献有三个:
-
使用极值点来解决弱监督实例分割问题,这些极值点可以在边界框标注过程中获得,无需额外成本。
-
引入了一种点检索算法,该算法有效地利用极值点来估计边界框内点的标签。具体而言,该算法基于传播到极值点和背景点的概率来估计点的标签。
-
在三个公共基准测试中达到了最先进的水平,结果表明论文的方法能够生成高质量的伪掩码,尤其适用于分离的物体。
Proposed Method
EXITS
包括两个阶段:(1)学习一个模型,使用极值点标签生成训练图像的伪分割标签,(2)使用伪标签训练实例分割模型。在第一阶段,使用围绕每个对象的极值点裁剪的对象图像作为伪标签生成器的输入,使得模型学习在裁剪图像内预测对象的二进制掩码。在第二阶段中的实例分割模型,即最终的模型,学习检测和分割多个对象。需要注意的是,伪标签生成器处理一个更容易的任务,即单个对象图像上的实例分割任务,这有助于提高它生成伪标签的质量。整个EXITS
流程如图2
所示。
由于第二阶段是传统的监督学习,可以应用于任何实例分割模型,因此主要阐述第一阶段,特别是EXITS
如何为分割提供有效的监督学习。第一阶段的整体流程如图3
所示。EXITS
的关键思想是在给定极值点的情况下检索可能属于对象的像素,并将它们作为伪标签生成器的监督。这个想法是通过将极值点传播到输入对象图像中的其他像素来实现的,同时将极值点视为对象的真实像素的子集。
Motivation for Using Extreme Points
极值点被定义为对象在基本方向上最外层的像素:最顶部的点 ( x ( t ) , y ( t ) ) (x^{(t)}, y^{(t)}) (x(t),y(t)) ,最左侧的点 ( x ( l ) , y ( l ) ) (x^{(l)}, y^{(l)}) (x(l),y(l)) ,最底部的点 ( x ( b ) , y ( b ) ) (x^{(b)}, y^{(b)}) (x(b),y(b)) ,最右侧的点 ( x ( r ) , y ( r ) ) (x^{(r)}, y^{(r)}) (x(r),y(r)) 。有研究证明了标记这些点相对于传统方法—标记框的左上角 ( x ( l ) , y ( t ) ) (x^{(l)}, y^(t)) (x(l),y(t)) 和右下角 ( x ( r ) , y ( b ) ) (x^(r),y^(b)) (x(r),y(b)) 处更高效,因为这样的角落往往难以确定是否属于目标对象区域,注解者经常不得不多次调整他们初始标记的角落。另一方面,相对于角落,在目标对象边界上极值点可以轻松地进行标记并直接转换成一个包围框。此外,它们本身提供了更多有关目标对象形状和外观信息,因为它们位于对象边界上。
Learning Pseudo Label Generator
伪标签生成器的目标是在给定围绕对象裁剪的图像的情况下预测对象的二进制掩码,由一个视觉变换器(ViT
)编码器和一个掩码解码器组成。检索可能属于对象(即前景)或背景的点,并使用检索到的点以及box
外的极值点和明确的背景点作为监督来训练生成器。
具体来说,前景点的初始集合是从极值点派生的,如下所示: P FG : = { ( x ( t ) , y ( t ) − δ ) , ( x ( l ) + δ , y ( l ) ) , ( x ( b ) , y ( b ) + δ ) , ( x ( r ) − δ , y ( r ) ) } \mathcal{P}_{\textrm{FG}}:= \big\{ (x^{(t)}, y^{(t)}-\delta), (x^{(l)}+\delta, y^{(l)}), (x^{(b)}, y^{(b)}+\delta), (x^{(r)}-\delta, y^{(r)}) \big\} PFG:={ (x(t),y(t)−δ),(x(l)+δ,y(l)),(x(b),y(b)+δ),(x(r)−δ,y(r))} ,其中 δ \delta δ 是引入的一个小边距,用于将极值点推向对象中心,使得 P FG \mathcal{P}_{\textrm{FG}} PFG 中的点更向内部,并更可靠地代表对象。另一方面,背景点的初始集合 P BG \mathcal{P}_{\textrm{BG}} PBG 由位于由极值点定义的边界框之外的点组成。为了给边界框内未标记的点分配伪标签,记为 P Box \mathcal{P}_{\textrm{Box}} PBox ,从 P FG \mathcal{P}_{\textrm{FG}} PFG 和 P BG \mathcal{P}_{\textrm{BG}} PBG 中传播的初始标签通过随机游走传播到它们,使用一个转移概率矩阵,即输入图像中点之间的成对语义相似性矩阵。具体而言,更可能从 P FG \mathcal{P}_{\textrm{FG}} PFG 传播而不是从 P BG \mathcal{P}_{\textrm{BG}} PBG 传播的点被视为伪前景,而更可能从 P B G \mathcal{P}_{BG} PBG 传播而不是从 P FG \mathcal{P}_{\textrm{FG}} PFG