Mask Scoring Rcnn论文解读《Mask Scoring R-CNN》

参考链接:

论文链接《Mask Scoring R-CNN》

Github 地址 Mask Scoring RCNN

在大多数实例分割框架中,实例分类的置信度被用作MASK质量分数。

MASK质量:量化为实例MASK与其Groundtruth之间的IoU。

真正评估mask质量的指标应该是预测的mask和GroundTruth的mask之间的IoU,而不是以分类分数作为mask的置信度。 本文增加一个模块直接对MaskIoU进行回归。


                                       Mask Scoring R-CNN

摘要:在大多数实例分割框架中,实例分类的置信度被用作MASK质量分数。MASK质量(量化为实例MASK与其Groundtruth之间的IoU),通常与分类得分没有很好的相关性。在这篇文章中我们提出了MASK  Scoring RCNN结构,包含了一个模块用于学习评估所预测的mask的质量(为预测的MASK打分)。提出的网络模块将实例特征和相应的预测MASK结合起来,对MASKIoU进行回归。这种为MASK打分的策略,校正了MASK质量和MASK分数之间的偏差,并通过在COCO AP评估期间优先考虑更准确的MASK预测来改进实例分割性能。

总结:在原来的大多数框架中,分类的置信度(confidence)被用作MASK的质量分数,但分类得分与MASK质量没有很大相关性,我们提出一个新的模块用来评估MASK质量的分数。(MASK IOU)

    区别:MASK RCNN衡量mask的质量是根据分类的置信度,而我们提出的MSK Scoring RCNN 是提出一个模块根据ROI feature和predicted mask,对mask和GroundTruth的mask之间的IOU进行回归。

Introduction:

    在计算视觉中,深度学习网络的学习从图像分类逐渐向box-level分类、pixel-level分类演变。进行细粒度的预测的能力不仅需要详细的标签,还需要更加精巧的网络设计。

目标检测的下一步应该从粗略的box-level的实例分割演变到精确的pixel-level的分类。

具体来说,本文提出了一种对实例分割假设进行评分的新方法,该方法对实例分割评价具有重要意义。

原因在于,大多数评价指标(如AP)都是根据假设(MASK的假设、预测)得分来确定的,更精确的得分有助于更好地描述模型的性能。

但在传统的框架中,如MASK RCNN和MASKLab,instance mask的分数与box-level分类的置信度共享,该置信度由在proposal feature上应用的分类器预测的。使用分类置信度来度量MASK质量是不合适的,因为它只用于区分proposals的语义类别,而不知道实例MASK的实际质量和完整性。

图中每幅图上标记的两种模型的分数分别是:MS RCNN—我们提出的MASK IOU模块对MASK质量的打分,Mask R-CNN:分类分数。(classification score)。红色的框体现了box-level的框的位置的精确程度。由于背景杂乱,遮挡等问题,如图1所示,分类得分可能很高,但MASK质量很低。

与以前的旨在获得更准确的实例定位或分割mask的方法不同,我们的方法着重于对MASK评分。 为了达到这个目标,我们的模型学习了每个MASK的分数,而不是使用其分类分数。为了清楚起见,我们将学习到的分数称为MASK分数。

受到实例分割的AP评测指标(在预测的MASK和它的ground truthMASK之间使用像素级Intersection-over-Union (IoU)来描述实例分割质量)的启发,我们提出一个网络去直接学习IoU,将这个IoU称为MASKIoU

MASK 质量分数是这样计算的:一旦我们在测试阶段得到了预测的MaskIoU,通过将预测的MaskIoU与分类分数相乘来重新评估mask score。因此,MASK评分既能识别语义类别,又能识别实例mask的完整性。

                                                                                  Smask = Scls · Siou

我们提出的这个模块称为MaskIoU head,它将mask head的输出(predicted mask)和RoI特征作为输入,并使用简单的回归损失进行训练。

the results demonstrate that our method provides consistent and noticeable performance improvement attributing to the alignment between mask quality and score.

Summary:  我们的贡献

  1. 我们提出的网络是第一个强调对实例分割的假设打分的。这是一个改善实例分割模型的新方向。
  2. Mask IoU head简单高效,在COCO数据集上,AP在不同的backbone网络上提升了1.5%。

 

Related work:

实例分割的方法目前可以划分为两类:基于检测的方法(detection)和基于分割的方法(segmentation)。

基于检测的方法是获得每一个实例的区域(region),然后为每一个区域预测一个MASK。

“get the region of each instance, and then predict the mask for each reion. mask quality is only measured by the classification scores.”

基于分割的方法首先对每个像素的类别标签进行预测,然后将它们分组形成实例分割结果。例如一些基于聚类的方法(引用一些文献)。由于这些方法没有明确的分数来衡量实例MASK质量,因此它们必须使用像素级的平均分类分数作为替代。

“Segmentation based methods predict the category labels of each pixel first and then group them together to form instance segmentation results.”

上述两类方法都没有考虑掩模分数和掩模质量之间的对齐。由于掩模分数的不可靠性,一个掩模假设如果掩模分数较低,则IoU对ground truth越高的掩模假设越容易被评为低优先级。在这种情况下,最终AP会因此降低。(不是很理解,似懂非懂)。

 

为了证明分类得分与MASK质量没有很大相关性,也做了实验比较 两种模型对mask的打分方式,与mask质量的关系。(MASK IoU越接近1,mask质量越好。) 

Motivation

由于背景杂乱,遮挡等问题,分类得分可能很高,但MASK质量很低。为了量化分析这个问题,我们设计实验,在MASK RCNN中MASK得分(根据分类),和我们提出的评分方法Smask = Scls · Siou(MaskIoU head得出的Siou)这两种mask评分方法下,对比了两种模型生成的mask与Groundtruth的MASK之间的IoU。(即图中标出的MaskIoU,衡量mask生成的精确程度。)

图a是MASK RCNN模型,在分类分数上的MaskIoU分布,无明显相关性。图b是Mask Scoring RCNN在我们的mask score上的MaskIoU分布情况,具有相关性。图c显示定量结果,我们将每个MaskIoU区间的分数取平均值,可以看出我们的方法可以更好的将分数与MaskIoU对应起来。

这些图都说明,MASK RCNN的根据分类打分的方法,与MASKIoU没有相关性,即与mask的生成质量相关性低。

以上的所有分析,都促使我们针对每个检测假设(detection hypothesis),基于MaskIoU去学习校准的MASK得分。

为了不失一般性,基于MASK RCNN,提出MASK Scoring RCNN:一个具有额外MaskIoU head模块的Mask R-CNN,该模块学习MaskIoU对齐的Mask得分。

 

Mask scoring in Mask R-CNN

 

Mask head : 将ROI Align层的实例特征和预测的mask拼接作为输入,并预测输入mask和groundtruthmask之间的IoU。

takes the instance feature and the predicted mask together as input, and predicts the IoU between input mask and ground truth mask

我们定义Smask为预测的mask的分数,理想的Smask等于像素级别上的预测mask和Groundtruth之间的IoU,在之前的分析中也称之为MaskIoU。Smask应该只在对应Groundtruth相应的类别时存在,对于其他类别,Smak为0.

这就需要mask 得分需要完成两个任务:1.将mask分类为正确的类别。2. 为前景对象类别回归相应区域(proposal)的MaskIoU。(用maskiou精确mask打分?)

 This requires the mask score to works well on two task: classifying the mask to right category and regressing the proposal’s MaskIoU for foreground object category.

    因此我们将mask打分的任务分解为两部分:mask分类和IoU回归。定义:

                                                                     Smask = Scls · Siou

Scls focuses on classifying the proposal belong to which class and Siou focuses on regressing the MaskIoU.” 

网络结构:

Mask head 网络最后一层(FC全连接层)输出的是C个类别的MaskIoU。(是C个分数)

Mask head 回归过程

 为了训练MaskIoU head这个分支,我们用RPN区域作为训练样本。这个训练样本需要满足该区域的提出的box边框和GT之间的IoU大于0.5,这一点和Mask RCNN 的mask分支要求一样。为了为每一个训练样本生成回归目标,我们首先获得目标类别的预测的mask,并且根据阈值0.5,二值化这个mask。然后我们用二值mask和它相应的GT之间的MaskIoU作为MaksIoU回归目标。我们使用L2loss去回归MaskIoU。

For training the MaskIoU head, we use the RPN proposals as training samples. The training samples are required to have a IoU between proposal box and the matched ground truth box larger than 0.5, which are the same with the training samples of the Mask head of Mask R-CNN. For generating the regression target for each training sample, we firstly get the predicted mask of the target class and binarize the predicted mask using a threshold of 0.5。Then we use the MaskIoU between the binary mask and its matched ground truth as the MaskIoU target. We use the ℓ2 loss for regressing MaskIoU。

后面是实验结果评测,和一些消融实验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值