Path Aggregation Network for Instance Segmentation 论文笔记

该博客介绍了Path Aggregation Network(PAN)如何改进Mask R-CNN,通过缩短信息传递路径和自适应特征池化增强实例分割性能。PAN引入了自下而上的路径增强,恢复了所有层级特征的信息,并使用小的全连接层增强mask预测,提升了目标检测和实例分割的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Path Aggregation Network for Instance Segmentation

论文链接: https://arxiv.org/abs/1803.01534

一、Problem Statement

COCO2017实例分割挑战赛的冠军。

  1. 作者认为Mask-RCNN的信息传递可以更进一步,特别是低层次的特征有助于大实例的识别。但是,对于低层次的特征传递有很长的一个路径,增加了精确定位信息的难度。
  2. 还有一个问题就是,每一个proposal是基于特定的特征层级预测出来的,从其他层级丢弃的信息可能对最后的预测有用。
  3. 最后,mask prediction基于单视野,失去了收集更多样化信息的机会。

二、Direction

  1. 缩短信息传递的路径,path augmentation。
  2. 恢复每个proposal和所有层级特征的信息,提出了adaptive feature pooling。
  3. 为了捕捉每个proposal的不同视觉,使用小的fully-connected layer增强mask prediction。

前两个方向可以用于目标检测,也可以提升性能。

三、Method

1、Bottom-up Path Augmentation

Motivation:

[1]论文上面说:高层级的神经元对整个目标有很强的响应,而其他神经元则更容易被局部的纹理和模式激活。说明了在FPN中增加一条自上而下的路径来传播语义强的特征,并以合理的分类能力增强所有特征。
所以作者受到了启迪,认为通过传递低层级的模式(例如边沿,实例部分,这些对定位实例来说都是很强的指标),提高整个特征金字塔的定位能力。所以建立了一个简洁的旁支,连接低层级到高层级,正如上图绿色表示的那样,只穿过了不到10个层。而红色那条来自于FPN,穿过了100+多个层。

Augmented Bottom-up Structure
在FPN的基础上,增加了bottom-up path augmentation。 正如上图的b模块。

2、Adaptive Feature Pooling

Motivation:
在FPN网络中,根据proposal的大小,会将其赋于相对应大小的特征层。尽管这个有效简单,但是会存在non-optimal 结果。其次,特征的重要性可能不是与它们属于哪一层有很强的联系。因此作者就提出了从所有层的proposal进行pooling fetures,然后融合它们进行预测。使用max operation来融合不同层级的特征,能够使得网络选择element-wise有用的特征。实验表面,来自多层级的特征融合有助于精准的预测。

Adaptive Feature Pooling Structure
上图c部分就是Adaptive Feature Pooling。

  1. 对于每一个proposal,我们把它们映射到不同的特征层,正如灰色那部分。
  2. 根据Mask-RCNN, 使用ROIAlign对每层的feature grids 进行池化。
  3. 池化后的feature grids进过一个网络层后,使用一个融合操作(element-wise max or sum)对来自不同层的每个feature grids进行融合。
  4. 融合后用FCL进行回归。
    在这里插入图片描述

3、Fully-connected Fusion

Motivation:
作者认为: FCL与FCN不同,FCN基于局部的感知域预测每一个像素,且参数在不同空间位置是共享的。相反,FCL位置敏感,因此在不同空间位置上的预测是由不一样的参数得到的,所以它们能够适应不同的空间位置。其次,在每一个空间位置的预测是基于整个proposal的全局信息,这有助于区分实例和识别同一物体分离的部分。所以作者把FCL和FCN结合起来进行mask prediction。

Mask Prediction
mask branch对每一个proposal中经过池化的feature grid进行操作。

一个path是Conv加Deconv, 一个path是Conv加FCL。上面那个分支预测一个binary pixel-wise mask。而下面的分支仅使用一个fc层(而不是多个fc层)进行最终预测,避免了将隐藏的空间特征图折叠成一个短特征向量的问题,从而丢失空间信息。

四、Conclusion

对Mask R-CNN的一个改进。

References

1.M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In ECCV. 2014.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值