【目标检测系列:六】2016 CVPR 特征金字塔网络(FPN)

本文详细介绍了2016年CVPR提出的特征金字塔网络(FPN)在目标检测中的作用。FPN通过构建自上而下的特征层,结合横向连接,提供多尺度的特征用于检测不同大小的目标。文章阐述了FPN的构建过程,包括ResNet的下采样和上采样操作,以及如何与 Faster R-CNN 结合。此外,还讨论了在RPN中使用FPN生成不同尺度特征的重要性,并解决了ROI对应特征层的选择问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2016 CVPR

特征金字塔网络(FPN)

Feature Pyramid Networks for Object Detection

ResNet 101 举例:[2]

  • down-top
    就是 每个residual block(C1去掉了,太大太耗内存了),scale缩小2,C2,C3,C4,C5(1/4, 1/8, 1/16, 1/32)
  • top-down
    就是把高层的低分辨强语义的feature 最近邻上采样2x
  • lateral connection
    过 1x1卷积调整channel

具体迭代操作:[2]

  • 从C5(512)开始加个1*1卷积 改变 channel 到256个 ,生成分辨率最低但语义最强的feature P5 ,开始迭代
  • 然后 P5 上采样放大2倍,C4经过一个1*1的卷积后和上采样后的P5 channel feature 大小都一样了,进行 element-wise 相加
  • 以此迭代下去到P2结束
  • 每个Pk后加一个3*3的卷积
    (原文说reduce the aliasing effect of upsampling)

优点

  • 特征金字塔可以在速度和准确率之间进行权衡,可以通过它获得更加鲁棒的语义信息

  • 图像中存在不同尺寸的目标,而不同的目标具有不同的特征,利用浅层的特征就可以将简单的目标的区分开来;利用深层的特征可以将复杂的目标区分开来

利用FPN构建Faster R-CNN检测器步骤[1]

  • 首先, 对 图片进行预处理操作;
  • 然后,将处理过的图片送入预训练的特征网络中(如ResNet、vgg等),即构建所谓的 down-top网络;
  • 接着,如图所示,构建对应的top-down网络(即对层4进行上采样操作,先用1x1的卷积对层2进行降维处理,然后将两者相加(对应元素相加),最后进行3x3的卷积操作
  • 接着,在图中的4、5、6层上面分别进行RPN操作,即一个3x3的卷积后面分两路,分别连接一个1x1的卷积用来进行分类和回归操作;
  • 接着,将上一步获得的候选ROI分别输入到4、5、6层上面分别进行ROI Pool操作(固定为7x7的特征);
  • 最后,在上一步的基础上面连接两个1024层的全连接网络层,然后分两个支路,连接对应的分类层和回归层;

Faster R-CNN+Resnet-101的结构[3]

  • Faster-RCNN利用conv1到conv4-x的91层为共享卷积层
  • 然后从conv4-x的输出开始分叉,一路经过RPN网络
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值