FPN(Feature Pyramid Networks)

(a).特征图像金字塔结构,针对检测不同尺度的目标,将我们的图片首先缩放到不同的尺度
对于每一个尺度的图片,都依次通过我们的算法进行预测,但是要对每一个不同的尺度都要预测一次,需要预测很多次,效率比较低
(b).将图片通过backbone得到我们最终的一个特征图,然后再进行预测,就是faster-rcnn的一个流程.对于小目标预测效果不是很好
(c).首先将图片传入backbone,然后会在backbone正向传播的过程当中得到的不同特征图上分别进行一个预测
(d).FPN结构,将不同特征图上的特征去进行一个融合,然后在融合之后的特征图上再进行一个预测。(进行融合的不同特征图的尺寸也是有要求的,一般是2的整数倍,第一层28*28,第二层14*14,最上面7*7)

通过1*1的卷积核来保证他的channel是一样的,两倍上采样操作,将7*7转化为14*14,保证shape(高和宽)是一样的
然后进行一个add(拼接操作)
以ResNet50作为backbone

总结:FPN就是将不同的特征图上的特征进行融合。
FPN(Feature Pyramid Networks)是一种用于目标检测的深度学习架构,它解决了不同尺度目标检测的问题。传统的做法是对每个尺度的图片分别预测,效率低下。而FPN则通过ResNet等backbone获取特征图,然后通过上采样和融合不同层级的特征,形成金字塔结构,确保在统一特征层进行预测,有效提升了小目标检测的准确性。关键步骤包括1*1卷积调整通道数,两倍上采样匹配尺寸,并通过add操作融合特征。FPN的创新在于高效利用多尺度信息,提高了检测效率和准确性。
8285

被折叠的 条评论
为什么被折叠?



