Mask Scoring Rcnn论文解读《Mask Scoring R-CNN》

最新推荐文章于 2024-08-12 08:38:53 发布

Amberrr-L

最新推荐文章于 2024-08-12 08:38:53 发布

阅读量1.1k

点赞数 1

分类专栏：论文解读目标检测/分割文章标签：深度学习人工智能网络计算机视觉

本文链接：https://blog.youkuaiyun.com/qq_41647438/article/details/105232558

版权

论文解读同时被 2 个专栏收录

13 篇文章

订阅专栏

目标检测/分割

8 篇文章

订阅专栏

参考链接：

论文链接《Mask Scoring R-CNN》

Github 地址 Mask Scoring RCNN

在大多数实例分割框架中，实例分类的置信度被用作MASK质量分数。

MASK质量：量化为实例MASK与其Groundtruth之间的IoU。

真正评估mask质量的指标应该是预测的mask和GroundTruth的mask之间的IoU，而不是以分类分数作为mask的置信度。本文增加一个模块直接对MaskIoU进行回归。

Mask Scoring R-CNN

摘要：在大多数实例分割框架中，实例分类的置信度被用作MASK质量分数。MASK质量（量化为实例MASK与其Groundtruth之间的IoU）,通常与分类得分没有很好的相关性。在这篇文章中我们提出了MASK Scoring RCNN结构，包含了一个模块用于学习评估所预测的mask的质量(为预测的MASK打分)。提出的网络模块将实例特征和相应的预测MASK结合起来，对MASKIoU进行回归。这种为MASK打分的策略，校正了MASK质量和MASK分数之间的偏差，并通过在COCO AP评估期间优先考虑更准确的MASK预测来改进实例分割性能。

总结：在原来的大多数框架中，分类的置信度（confidence）被用作MASK的质量分数，但分类得分与MASK质量没有很大相关性，我们提出一个新的模块用来评估MASK质量的分数。（MASK IOU）

区别：MASK RCNN衡量mask的质量是根据分类的置信度，而我们提出的MSK Scoring RCNN 是提出一个模块根据ROI feature和predicted mask，对mask和GroundTruth的mask之间的IOU进行回归。

Introduction:

在计算视觉中，深度学习网络的学习从图像分类逐渐向box-level分类、pixel-level分类演变。进行细粒度的预测的能力不仅需要详细的标签，还需要更加精巧的网络设计。

目标检测的下一步应该从粗略的box-level的实例分割演变到精确的pixel-level的分类。

具体来说，本文提出了一种对实例分割假设进行评分的新方法，该方法对实例分割评价具有重要意义。

原因在于，大多数评价指标(如AP)都是根据假设（MASK的假设、预测）得分来确定的，更精确的得分有助于更好地描述模型的性能。

但在传统的框架中，如MASK RCNN和MASKLab，instance mask的分数与box-level分类的置信度共享，该置信度由在proposal feature上应用的分类器预测的。使用分类置信度来度量MASK质量是不合适的，因为它只用于区分proposals的语义类别，而不知道实例MASK的实际质量和完整性。

图中每幅图上标记的两种模型的分数分别是：MS RCNN—我们提出的MASK IOU模块对MASK质量的打分，Mask R-CNN：分类分数。（classification score）。红色的框体现了box-level的框的位置的精确程度。由于背景杂乱，遮挡等问题，如图1所示，分类得分可能很高，但MASK质量很低。

与以前的旨在获得更准确的实例定位或分割mask的方法不同，我们的方法着重于对MASK评分。为了达到这个目标，我们的模型学习了每个MASK的分数，而不是使用其分类分数。为了清楚起见，我们将学习到的分数称为MASK分数。

受到实例分割的AP评测指标（在预测的MASK和它的ground truthMASK之间使用像素级Intersection-over-Union (IoU)来描述实例分割质量）的启发，我们提出一个网络去直接学习IoU,将这个IoU称为MASKIoU。

MASK 质量分数是这样计算的：一旦我们在测试阶段得到了预测的MaskIoU，通过将预测的MaskIoU与分类分数相乘来重新评估mask score。因此，MASK评分既能识别语义类别，又能识别实例mask的完整性。

Smask = Scls · Siou

我们提出的这个模块称为MaskIoU head，它将mask head的输出(predicted mask)和RoI特征作为输入，并使用简单的回归损失进行训练。

the results demonstrate that our method provides consistent and noticeable performance improvement attributing to the alignment between mask quality and score.

Summary: 我们的贡献

我们提出的网络是第一个强调对实例分割的假设打分的。这是一个改善实例分割模型的新方向。
Mask IoU head简单高效，在COCO数据集上，AP在不同的backbone网络上提升了1.5%。

Related work:

实例分割的方法目前可以划分为两类：基于检测的方法（detection）和基于分割的方法（segmentation）。

基于检测的方法是获得每一个实例的区域（region）,然后为每一个区域预测一个MASK。

“get the region of each instance, and then predict the mask for each reion. mask quality is only measured by the classification scores.”

基于分割的方法首先对每个像素的类别标签进行预测，然后将它们分组形成实例分割结果。例如一些基于聚类的方法（引用一些文献）。由于这些方法没有明确的分数来衡量实例MASK质量，因此它们必须使用像素级的平均分类分数作为替代。

“Segmentation based methods predict the category labels of each pixel ﬁrst and then group them together to form instance segmentation results.”

上述两类方法都没有考虑掩模分数和掩模质量之间的对齐。由于掩模分数的不可靠性，一个掩模假设如果掩模分数较低，则IoU对ground truth越高的掩模假设越容易被评为低优先级。在这种情况下，最终AP会因此降低。（不是很理解，似懂非懂）。

为了证明分类得分与MASK质量没有很大相关性，也做了实验比较两种模型对mask的打分方式，与mask质量的关系。（MASK IoU越接近1，mask质量越好。）

Motivation

由于背景杂乱，遮挡等问题，分类得分可能很高，但MASK质量很低。为了量化分析这个问题，我们设计实验，在MASK RCNN中MASK得分（根据分类），和我们提出的评分方法Smask = Scls · Siou（MaskIoU head得出的Siou）这两种mask评分方法下，对比了两种模型生成的mask与Groundtruth的MASK之间的IoU。（即图中标出的MaskIoU，衡量mask生成的精确程度。）

图a是MASK RCNN模型，在分类分数上的MaskIoU分布，无明显相关性。图b是Mask Scoring RCNN在我们的mask score上的MaskIoU分布情况，具有相关性。图c显示定量结果，我们将每个MaskIoU区间的分数取平均值，可以看出我们的方法可以更好的将分数与MaskIoU对应起来。

这些图都说明，MASK RCNN的根据分类打分的方法，与MASKIoU没有相关性，即与mask的生成质量相关性低。

以上的所有分析，都促使我们针对每个检测假设（detection hypothesis），基于MaskIoU去学习校准的MASK得分。

为了不失一般性，基于MASK RCNN，提出MASK Scoring RCNN:一个具有额外MaskIoU head模块的Mask R-CNN，该模块学习MaskIoU对齐的Mask得分。

Mask scoring in Mask R-CNN

Mask head : 将ROI Align层的实例特征和预测的mask拼接作为输入，并预测输入mask和groundtruthmask之间的IoU。

takes the instance feature and the predicted mask together as input, and predicts the IoU between input mask and ground truth mask

我们定义Smask为预测的mask的分数，理想的Smask等于像素级别上的预测mask和Groundtruth之间的IoU,在之前的分析中也称之为MaskIoU。Smask应该只在对应Groundtruth相应的类别时存在，对于其他类别，Smak为0.

这就需要mask 得分需要完成两个任务：1.将mask分类为正确的类别。2. 为前景对象类别回归相应区域（proposal）的MaskIoU。(用maskiou精确mask打分？)

This requires the mask score to works well on two task: classifying the mask to right category and regressing the proposal’s MaskIoU for foreground object category.

因此我们将mask打分的任务分解为两部分：mask分类和IoU回归。定义:

Smask = Scls · Siou

Scls focuses on classifying the proposal belong to which class and Siou focuses on regressing the MaskIoU.”

网络结构：

Mask head 网络最后一层（FC全连接层）输出的是C个类别的MaskIoU。（是C个分数）

Mask head 回归过程

为了训练MaskIoU head这个分支，我们用RPN区域作为训练样本。这个训练样本需要满足该区域的提出的box边框和GT之间的IoU大于0.5，这一点和Mask RCNN 的mask分支要求一样。为了为每一个训练样本生成回归目标，我们首先获得目标类别的预测的mask，并且根据阈值0.5，二值化这个mask。然后我们用二值mask和它相应的GT之间的MaskIoU作为MaksIoU回归目标。我们使用L2loss去回归MaskIoU。

For training the MaskIoU head, we use the RPN proposals as training samples. The training samples are required to have a IoU between proposal box and the matched ground truth box larger than 0.5, which are the same with the training samples of the Mask head of Mask R-CNN. For generating the regression target for each training sample, we firstly get the predicted mask of the target class and binarize the predicted mask using a threshold of 0.5。Then we use the MaskIoU between the binary mask and its matched ground truth as the MaskIoU target. We use the ℓ2 loss for regressing MaskIoU。

后面是实验结果评测，和一些消融实验。