FPN学习笔记

FPN(Feature Pyramid Networks)通过Bottom-up、Top-down和Lateral connection结构实现多尺度预测,提升目标检测精度。它利用ResNet的stage输出构建特征金字塔,Top-down过程通过上采样结合低层特征,Lateral connection融合位置和语义信息,最终得到不同分辨率的feature map用于检测任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一,FPN:Feature Pyramid Networks for Object Detection

关键创新点:多尺度预测,提高精度同时避免了传统的多尺度方法(image pyramid)的巨大开销。

二,结构( Bottom-up +  Top-down + Lateral connection)

1,Bottem-up:从低到上的特征提取部分,输入为原始图片,输出一系列不同尺度的feature map。论文中使用ResNet网络,把ResNet每个stage的最后一个feature map作为输出。论文中只使用conv2、conv3、conv4、conv5 四个stage,并把输出记为C2、C3、C4、C5。分别相对于原始图片缩小4、8、16、32倍。

2,Top-down和Lateral connection:Top-down的作用是,通过上采样把那些更上层的feature map(位置粗糙但语义丰富)转化为分辨率更高的feature map,这样是为了和较低层的feature map大小相匹配。然后,Lateral connection会将相同分辨率的Top-down生成的feature map(更丰富的语义信息)和Bottem-up生成的feature map(更丰富的位置信息)结合。

3,上采样方式:上采样因子是2,因为C2到C3到C4到C5正好每次缩小2倍。方法采用最临近元法(nearest neighbor upsampling)。

4,Lateral connection 方式:先对Bottom-up输出进行一个1×1卷积(目的降低维度),然后通过element-wise addition,和上采样输出融合。融合的结果作为下层的输入,依次迭代循环,直到产生最大分辨率的feature map。

5,迭代的最开始,直接对C5进行1×1卷积产

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值