Feature Pyramid Networks for Object Detection FPN论文重点解读

论文研究了FeaturePyramidNetworks(FPN)在对象检测中的作用,该网络作为neck部分改进,用于融合多尺度特征。FPN通过重用ConvNet计算的金字塔特征层次结构提高效率和准确性。实验表明,尽管深度学习模型对尺度变化有内在的鲁棒性,但金字塔表示对于处理多尺度问题仍然至关重要。此外,还对比了FPN与仅使用单一尺度特征的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《Feature Pyramid Networks for Object Detection》读论文计划-day1

今天读了两篇论文,分别是FPN与BiFPN的论文,论文地址见引用2。

首先需要知道的是,检测算法的结构一般可以分为backbone、neck、head三部分。

  1. backbone用于提取初级特征
  2. neck用于融合高级语义特征
  3. head编解码,实现分类与回归

FPN与其他模型

FPN(Feature Pyramid Networks for Object Detection,CVPR 2017)属于neck部分的改进、用于构建高级语义特征,融合多尺度特征,扩大感受野。
金字塔的概念,不是KaimingHe首先定义的,在很久之前就有相关论述,这一点在论文中有提及,FPN所做的改进可以由如下图片进行说明:

(a)使用图像金字塔构建特征金字塔。特征是在每个图像尺度上独立计算的,速度较慢,应该是最初的金字塔模型概念。
(b) 方法b选择仅使用单一尺度特征来进行更快的检测。仅输出一个尺度的预测。
(c)方法c是重用由 ConvNet计算的金字塔特征层次结构,就好像它是一个特征化的图像金字塔一样。输出多个尺度的预测。
(d) 特征金字塔网络 (FPN) 在速度上和b 和 c 的模型一样快速,但更准确。
在这里插入图片描述

FPN具体过程

下图说明FPN的具体过程:横向连接和自上而下路径的构建块,通过加法合并。
自上而下的特征图含有语义上更强的特征,但携带很少的定位信息。
自下而上的特征图含有更少的语义特征,但它携带更多的定位信息。
通过横向连接使用来增强这些特征。

在这里插入图片描述

FPN实验

下图是作者做的实验,用了5×5 窗口上通过一个小型 MLP 来生成输出维度为 14×14的密集对象片段。
橙色显示的是掩模对应于每个金字塔中层的图像区域的大小。
在这里插入图片描述

结论

作者在结论中提到,尽管深度卷积网络具有强大的表征能力及其对尺度变化的隐含鲁棒性,但使用金字塔表征明确解决多尺度问题仍然至关重要。

其他内容只设计实验结果以及精确度之类的内容,不过多介绍。

引用

  1. 一文详解Softmax函数
  2. Feature Pyramid Networks for Object Detection
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

七咔七咔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值