FPN学习笔记

最新推荐文章于 2025-09-16 18:15:09 发布

原创

最新推荐文章于 2025-09-16 18:15:09 发布 · 317 阅读

1 ·

CC 4.0 BY-SA版权

FPN（Feature Pyramid Networks）通过Bottom-up、Top-down和Lateral connection结构实现多尺度预测，提升目标检测精度。它利用ResNet的stage输出构建特征金字塔，Top-down过程通过上采样结合低层特征，Lateral connection融合位置和语义信息，最终得到不同分辨率的feature map用于检测任务。

一，FPN：Feature Pyramid Networks for Object Detection

关键创新点：多尺度预测，提高精度同时避免了传统的多尺度方法（image pyramid）的巨大开销。

二，结构（ Bottom-up + Top-down + Lateral connection）

1，Bottem-up：从低到上的特征提取部分，输入为原始图片，输出一系列不同尺度的feature map。论文中使用ResNet网络，把ResNet每个stage的最后一个feature map作为输出。论文中只使用conv2、conv3、conv4、conv5 四个stage，并把输出记为C2、C3、C4、C5。分别相对于原始图片缩小4、8、16、32倍。

2，Top-down和Lateral connection：Top-down的作用是，通过上采样把那些更上层的feature map(位置粗糙但语义丰富)转化为分辨率更高的feature map，这样是为了和较低层的feature map大小相匹配。然后，Lateral connection会将相同分辨率的Top-down生成的feature map（更丰富的语义信息）和Bottem-up生成的feature map（更丰富的位置信息）结合。

3，上采样方式：上采样因子是2，因为C2到C3到C4到C5正好每次缩小2倍。方法采用最临近元法（nearest neighbor upsampling）。

4，Lateral connection 方式：先对Bottom-up输出进行一个1×1卷积（目的降低维度），然后通过element-wise addition，和上采样输出融合。融合的结果作为下层的输入，依次迭代循环，直到产生最大分辨率的feature map。

5，迭代的最开始，直接对C5进行1×1卷积产