Path Aggregation Network for Instance Segmentation 论文笔记

最新推荐文章于 2025-02-21 22:35:21 发布

Tianchao龙虾

最新推荐文章于 2025-02-21 22:35:21 发布

阅读量385

点赞数

CC 4.0 BY-SA版权

分类专栏：实例分割论文笔记文章标签：深度学习自动驾驶神经网络

本文链接：https://blog.youkuaiyun.com/wuchaohuo724/article/details/116478203

实例分割论文笔记专栏收录该内容

21 篇文章

订阅专栏

该博客介绍了Path Aggregation Network(PAN)如何改进Mask R-CNN，通过缩短信息传递路径和自适应特征池化增强实例分割性能。PAN引入了自下而上的路径增强，恢复了所有层级特征的信息，并使用小的全连接层增强mask预测，提升了目标检测和实例分割的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Path Aggregation Network for Instance Segmentation

论文链接： https://arxiv.org/abs/1803.01534

一、Problem Statement

COCO2017实例分割挑战赛的冠军。

作者认为Mask-RCNN的信息传递可以更进一步，特别是低层次的特征有助于大实例的识别。但是，对于低层次的特征传递有很长的一个路径，增加了精确定位信息的难度。
还有一个问题就是，每一个proposal是基于特定的特征层级预测出来的，从其他层级丢弃的信息可能对最后的预测有用。
最后，mask prediction基于单视野，失去了收集更多样化信息的机会。

二、Direction

缩短信息传递的路径，path augmentation。
恢复每个proposal和所有层级特征的信息，提出了adaptive feature pooling。
为了捕捉每个proposal的不同视觉，使用小的fully-connected layer增强mask prediction。

前两个方向可以用于目标检测，也可以提升性能。

三、Method

1、Bottom-up Path Augmentation

Motivation:

[1]论文上面说:高层级的神经元对整个目标有很强的响应，而其他神经元则更容易被局部的纹理和模式激活。说明了在FPN中增加一条自上而下的路径来传播语义强的特征，并以合理的分类能力增强所有特征。
所以作者受到了启迪，认为通过传递低层级的模式(例如边沿，实例部分，这些对定位实例来说都是很强的指标),提高整个特征金字塔的定位能力。所以建立了一个简洁的旁支，连接低层级到高层级，正如上图绿色表示的那样，只穿过了不到10个层。而红色那条来自于FPN，穿过了100+多个层。

Augmented Bottom-up Structure
在FPN的基础上，增加了bottom-up path augmentation。正如上图的b模块。

2、Adaptive Feature Pooling

Motivation:
在FPN网络中，根据proposal的大小，会将其赋于相对应大小的特征层。尽管这个有效简单，但是会存在non-optimal 结果。其次，特征的重要性可能不是与它们属于哪一层有很强的联系。因此作者就提出了从所有层的proposal进行pooling fetures，然后融合它们进行预测。使用max operation来融合不同层级的特征，能够使得网络选择element-wise有用的特征。实验表面，来自多层级的特征融合有助于精准的预测。

Adaptive Feature Pooling Structure
上图c部分就是Adaptive Feature Pooling。

对于每一个proposal,我们把它们映射到不同的特征层，正如灰色那部分。
根据Mask-RCNN, 使用ROIAlign对每层的feature grids 进行池化。
池化后的feature grids进过一个网络层后，使用一个融合操作(element-wise max or sum)对来自不同层的每个feature grids进行融合。
融合后用FCL进行回归。

3、Fully-connected Fusion

Motivation:
作者认为: FCL与FCN不同，FCN基于局部的感知域预测每一个像素，且参数在不同空间位置是共享的。相反，FCL位置敏感，因此在不同空间位置上的预测是由不一样的参数得到的，所以它们能够适应不同的空间位置。其次，在每一个空间位置的预测是基于整个proposal的全局信息，这有助于区分实例和识别同一物体分离的部分。所以作者把FCL和FCN结合起来进行mask prediction。

Mask Prediction
mask branch对每一个proposal中经过池化的feature grid进行操作。