一,FPN:Feature Pyramid Networks for Object Detection
关键创新点:多尺度预测,提高精度同时避免了传统的多尺度方法(image pyramid)的巨大开销。
二,结构( Bottom-up + Top-down + Lateral connection)
1,Bottem-up:从低到上的特征提取部分,输入为原始图片,输出一系列不同尺度的feature map。论文中使用ResNet网络,把ResNet每个stage的最后一个feature map作为输出。论文中只使用conv2、conv3、conv4、conv5 四个stage,并把输出记为C2、C3、C4、C5。分别相对于原始图片缩小4、8、16、32倍。
2,Top-down和Lateral connection:Top-down的作用是,通过上采样把那些更上层的feature map(位置粗糙但语义丰富)转化为分辨率更高的feature map,这样是为了和较低层的feature map大小相匹配。然后,Lateral connection会将相同分辨率的Top-down生成的feature map(更丰富的语义信息)和Bottem-up生成的feature map(更丰富的位置信息)结合。
3,上采样方式:上采样因子是2,因为C2到C3到C4到C5正好每次缩小2倍。方法采用最临近元法(nearest neighbor upsampling)。
4,Lateral connection 方式:先对Bottom-up输出进行一个1×1卷积(目的降低维度),然后通过element-wise addition,和上采样输出融合。融合的结果作为下层的输入,依次迭代循环,直到产生最大分辨率的feature map。
5,迭代的最开始,直接对C5进行1×1卷积产