代码地址:Mask Scoring R-CNN
1. 概述
导读:在实例分割框架中会将实例的分类置信度作为其分割掩膜质量得分,然而分割掩膜的质量得分应该是和IoU相关才对,通常情况下并不能和分类的得分很好关联在一起。基于这个观点让深度学习网络为自身的预测进行评分相对来说是比较重要的,评判更为合理。在这篇文章在Mask R-CNN的基础上使用一个网络结构(MaskIoU Head)去学习预测得到的掩膜质量,得到一个新的网络结构Mask Scoring R-CNN(MS R-CNN),这个模块使用示例的特征与对应的预测掩膜一起去回归掩膜IoU。使用这样的方法实例分割的性能得到增强,超过了Mask R-CNN。
使用分类的置信度作为掩膜分割的得分就会出现图1中从左开始4幅图的结果,虽然分割置信度较高,但是分割质量就比较差了,因而使用分类的置信度作为得分可能会使得分割的质量变差。

这篇文章对分割的掩膜学习对应的分数(预测结果与GT之间的IoU),从而来提升分割的性能。这张中将这种IoU称之为MaskIoU,在测试阶段会将MaskIoU与分类置信度相乘得到mask score,这样mask score就与语义分类与实例分割掩膜相关了。
文章的主要贡献:
- 1)提出了Mask Scoring R-CNN,第一次提出了为分割掩膜进行打分,通过这样的机制提升了实例分割性能;
- 2)文章给出的MaskIoU简单高效,在COCO数据集上相比值使用分类置信度作为掩膜评分的各式backbone掩膜性能提升了1.5%。
2. 方法设计
2.1 比较论证与动机
文章比较Mask R-CNN与MS R-CNN中相关性能的关系,如图2所示:

图2中(a)和(b)图展示了分类置信度Score与MaskIoU的关系,在Mask R-CNN中这个关系是无序的,而在MS中是呈现一个正相关的关系的。图(c)展示了在Mask R-CNN中分类置信度Score与MaskIoU并不是很好相关联的。
2.2 MaskIoU Head
这个模块使用示例的特征与分割的掩膜作为输入,预测得到输入掩膜与GT掩膜的IoU。网络的具体结构见图3所示:

Mask Scoring
这篇文章中将掩膜得分的学习任务分解为mask分类与IoU回归,描述为:
s
m
a
s
k
=
s
c
l
s
⋅
s
i
o
u
s_{mask}=s_{cls}\cdot s_{iou}
smask=scls⋅siou,对于
s
c
l
s
s_{cls}
scls直接使用R-CNN头中的分类结果,而
s
i
o
u
s_{iou}
siou正是这篇文章提出的MaskIoU Head,其结构见图3中最下面的分支。
3. 实验结果
3.1 实例分割性能比较

3.2 消融实验
不同backbone于是否带MaskIoU Head的性能比较:

网络中其它成分对性能的影响:

MS R-CNN是一种改进的实例分割方法,它引入了MaskIoU Head来学习预测掩膜的质量,从而提高分割性能。通过回归掩膜IoU,MS R-CNN的性能超越了传统的Mask R-CNN,尤其是在COCO数据集上,提升了1.5%的掩膜性能。
366

被折叠的 条评论
为什么被折叠?



