Path Aggregation Network for Instance Segmentation
论文链接: https://arxiv.org/abs/1803.01534
一、Problem Statement
COCO2017实例分割挑战赛的冠军。
- 作者认为Mask-RCNN的信息传递可以更进一步,特别是低层次的特征有助于大实例的识别。但是,对于低层次的特征传递有很长的一个路径,增加了精确定位信息的难度。
- 还有一个问题就是,每一个proposal是基于特定的特征层级预测出来的,从其他层级丢弃的信息可能对最后的预测有用。
- 最后,mask prediction基于单视野,失去了收集更多样化信息的机会。
二、Direction
- 缩短信息传递的路径,path augmentation。
- 恢复每个proposal和所有层级特征的信息,提出了adaptive feature pooling。
- 为了捕捉每个proposal的不同视觉,使用小的fully-connected layer增强mask prediction。
前两个方向可以用于目标检测,也可以提升性能。
三、Method
1、Bottom-up Path Augmentation
Motivation:
[1]论文上面说:高层级的神经元对整个目标有很强的响应,而其他神经元则更容易被局部的纹理和模式激活。说明了在FPN中增加一条自上而下的路径来传播语义强的特征,并以合理的分类能力增强所有特征。
所以作者受到了启迪,认为通过传递低层级的模式(例如边沿,实例部分,这些对定位实例来说都是很强的指标),提高整个特征金字塔的定位能力。所以建立了一个简洁的旁支,连接低层级到高层级,正如上图绿色表示的那样,只穿过了不到10个层。而红色那条来自于FPN,穿过了100+多个层。
Augmented Bottom-up Structure
在FPN的基础上,增加了bottom-up path augmentation。 正如上图的b模块。
2、Adaptive Feature Pooling
Motivation:
在FPN网络中,根据proposal的大小,会将其赋于相对应大小的特征层。尽管这个有效简单,但是会存在non-optimal 结果。其次,特征的重要性可能不是与它们属于哪一层有很强的联系。因此作者就提出了从所有层的proposal进行pooling fetures,然后融合它们进行预测。使用max operation来融合不同层级的特征,能够使得网络选择element-wise有用的特征。实验表面,来自多层级的特征融合有助于精准的预测。
Adaptive Feature Pooling Structure
上图c部分就是Adaptive Feature Pooling。
- 对于每一个proposal,我们把它们映射到不同的特征层,正如灰色那部分。
- 根据Mask-RCNN, 使用ROIAlign对每层的feature grids 进行池化。
- 池化后的feature grids进过一个网络层后,使用一个融合操作(element-wise max or sum)对来自不同层的每个feature grids进行融合。
- 融合后用FCL进行回归。
3、Fully-connected Fusion
Motivation:
作者认为: FCL与FCN不同,FCN基于局部的感知域预测每一个像素,且参数在不同空间位置是共享的。相反,FCL位置敏感,因此在不同空间位置上的预测是由不一样的参数得到的,所以它们能够适应不同的空间位置。其次,在每一个空间位置的预测是基于整个proposal的全局信息,这有助于区分实例和识别同一物体分离的部分。所以作者把FCL和FCN结合起来进行mask prediction。
Mask Prediction
mask branch对每一个proposal中经过池化的feature grid进行操作。
一个path是Conv加Deconv, 一个path是Conv加FCL。上面那个分支预测一个binary pixel-wise mask。而下面的分支仅使用一个fc层(而不是多个fc层)进行最终预测,避免了将隐藏的空间特征图折叠成一个短特征向量的问题,从而丢失空间信息。
四、Conclusion
对Mask R-CNN的一个改进。
References
1.M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In ECCV. 2014.