论文链接:https://arxiv.org/abs/1811.10870
用于实例分割的亲和派生和图合并方法
一、简介
文章提出了一种基于像素亲和信息的实例分割机制,使用了两个相似的网络结构,一个网络用语预测像素级的语义得分,另一个网路用于得到像素之间的亲和性信息。将像素视作顶点,将像素间亲和性视作边的权重,并且文章提出了能将像素聚合到实例的一种简单且有效的图合并方法。
二、相关工作
2.1语义分割
FCN将CNN的全连接层替换成卷积层,实现了语义分割,沿着这条道路,很多网络针对FCN的缺点陆续被提出,为了保证空间分辨率的同时扩大感受野,提出了带孔卷积 [1],又称膨胀卷积。为了获得多规模信息,PSPNet[2]提出金字塔池化,Deeplabv2 [3] 提出 Atrous Spatial Pyramid Pooling (ASPP) 来获得环境信息。最近,DeepLabV3+ [4]引进了编译码结构 [5]并且获得了良好的性能,该篇文章不关注网络设计,任何用于语义分割的CNN都合适。
2.2实例分割
目前实例分割有两种基本方法,第一种是基于目标检测,在得到目标检测框之后再在框内做语义分割分割前景背景,由于这种方法需要借助目标检测中的区域提议,因此该方法称为proposal-based方法;另一种方法是,在语义分割图的基础上,将像素聚集到不同的实例上,将这种被称为proposal-free方法。
-
proposal-based
关于第一种方法,DeepMask[6]提出了一个网络,用来判断某一个图片补丁是否含有实例,进而产生mask;Multi-task Network Cascades (MNC) 提出了层叠结构,并且将实例分割任务分解成框定位、掩模生成和分类三个步骤;Fully Convolutional Instance-aware Semantic Segmentation (FCIS) [7]首先产生位置敏感特征图,然后通过将相邻区域的特征合并产生mask;Mask RCNN[8]对Faster RCNN[9]进行扩展,在其头部增加了一个mask分支。MaskLab[10]将Mask RCNN与位置敏感得分结合使用,获得了性能提升。基于区域的方法都是在ROI内进行mask的,因此,结果收到RPN[11](区域提议网络)的影响,并且会受到边框回归的准确性影响。
-
proposal-free
基于proposal-free的方法也在发展,这类方法的基本思想是利用CNN学到每个像素实例级的特征,接着用一种聚合方法将像素聚合成实例。这种方法通常分两步,一个是分割,一个是聚合。语义分割图获得之后,将像素一步步的聚合到不同的实例中。Liang[12]利用语义分割图预测图像中实例的个数和每个像素所属实例的位置,然后,执行光谱聚类以对像素进行分组;Long[13]将实例间的关系分类并且在聚合像素的时候利用边界信息;Alireza[14]和Bert [15]尝试学习内嵌向量来聚合实例;Sequential group network(SGN)[16]利用了一系列的简单网络一步步的将像素最终聚合成了实例,获得了该篇文章发布前最佳基于proposal-free方法类的实例分割性能。
该篇文章就是从proposal-free方法出发,基于进行语义分割的CNN网络,并对其进行改进以评估像素亲和性,进而判断两像素是否属于同一物体。
三、论文方法
3.1概观
文章的基本框架如图1所示。
文章将实例分割任务分成两步。第一步是利用CNN获得每个像素类别信息,并利用另一个网络生成像素亲和性信息这是一个易处理的二值分类问题,当然,为一张图中的所有像素生成亲和信息是不现实的,因此文章选取了部分临近像素。网络输出的每一层都代表了临近像素和当前目标像素属于同一实例的概率,如图2(a)所示。正如图1中看到的instance分支,像素亲和性信息能清晰的指示实例边界,进而证明了用它表征实例信息的可行性。第二步是将图合并算法用于这些结果,从而产生实例分割,对每个实例,它的类别是由基于语义标签的所有像素投票确定的。
3.2语义分支
文章使用了DeepLabv3[17]语义分割网络,其他语义分割网络也适用于文章的网络结构。
3.3实例分支
文章选择了很多像素对,实例分支的输出代表了他们是否属于同一个实例。理论上,如果一个实例是一个连通闭集,使用两对像素亲和性信息就可以合并实例。为了实现鲁棒性并且能够处理碎片化的实例,文章将以下像素集合作为目标像素p(x,y)的邻居像素。
其中Nd(x,y)是与目标像素有着d距离的8个像素点,D是所有可选距离d的集合。在文章中D={1,2,4,8,16,32,64}