概述
本文是对 Faster R-CNN 在目标检测问题上的进一步完善。Faster R-CNN 有两个步骤, RPN以及 Fast R-CNN,在这两个步骤上FPN都利用更多的卷积特征图(Feature pyramid map)信息来提升RPN和 Fast R-CNN的效果。思想是参考 Fully Convolutional Networks for Semantic Segmentation ,对 coarse outputs 进行放大,分别用对应尺寸的卷积特征图对 outputs 进行微调,得到更好的结果。
论文思想
首先论文比较了目前针对多尺度问题的各种解决思路

1. 生成图像金字塔,利用图像金字塔生产对应的特征图,在这些特征图上预测,但速度慢
2. 对单尺度图像使用 ConvNets 计算卷积特征,最后在最后一层卷积特征图上进行预测,该特征具有一定的 scale invariance, 但是如果有其他不同尺寸的卷积特征图效果会更好,速度较a快
3. 使用多个卷积特征图进行预测,如SSD(SSD从偏后的conv4_3开始,又往后加了几层,分别抽取每层特征,进行综合利用,但是SSD对于高分辨率的底层特征没有再利用,而这些层对于检测小目标很重要)
4. FPN很好的利用了各个卷积特征图,把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,使得所有尺度下的特征都有丰富的语义信息