Feature Pyramid Networks for Object Detection ——特征金字塔
特征金字塔,是识别不同尺度目标的基本方法。
如上图所示:(a)使用图像金字塔构建特征金字塔,速度慢,(b)只使用单一尺度特征进行更快的检测,(c)利用卷积的featuremap构建金字塔特征层次结构,是一个特征化的金字塔,上一篇介绍的SSD即为这种方法,(d)本文提出的FPN的模式。
特征金字塔的构建比较困难,占用大量的资源,无法进行端对端的训练,因此之前的FasterRCNN没有使用特征化的金字塔。SSD使用了图(c)所示特征化金字塔,但其缺点在于没有利用低级的特征,低级的特征对于检测小尺度的目标很有意义。
思路:
把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,使得所有尺度下的特征都有丰富的语义信息。
自下而上的路径:自下而上的路径其实就是卷积层的前向传播,通常有许多层产生相同大小的映射,我们认为这些层位于相同的阶段,为每一个阶段定义一个金字塔层。具体地,比如Resnet,我们把每个残差块的最后一层的输出定义为(C2,C3,C4,C5),并且可以知道,其单步步长为(4,8,16,32)个pixels。
自顶向下的路径和路径连接:自顶向下的路径是通过上采样,将顶层拥有更高级语义信息的特征映射到底层拥有低级语义信息但分辨率更高的低层特征。这些特征随后通过来自自下而上的特征经由横向连接来进行增强。每个横向连接合并来自自下而上路径和自上而下路径的具有相同空间大小的特征映射。自下而上的特征映射具有较低级别的语义,但其激活可以更精确地定位,因为它被下采样的次数更少。