FPN+PAN结构学习

最新推荐文章于 2025-05-09 20:49:55 发布

转载最新推荐文章于 2025-05-09 20:49:55 发布 · 2.9k 阅读

8 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/qq_35054151/article/details/111461066

deep learning 专栏收录该内容

242 篇文章

订阅专栏

本文详细介绍了YoloV4中Neck部分的FPN与PAN结构，阐述了它们如何通过自顶向下和自底向上的特征融合来提升检测性能。FPN传递高层语义特征，而PAN补充了低层定位信息，这种‘双塔战术’提升了模型在多尺度检测上的表现。此外，文中还提及了BiFPN作为进一步的融合方式。全连接层在此处的作用也被提及，其可以视为具有大感受野的卷积层，每个像素点都有独立的卷积核。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转自：https://blog.youkuaiyun.com/qq_35054151/article/details/111461066

yolo4的neck结构采用该模式，我们将Neck部分用立体图画出来，更直观的看下两部分之间是如何通过FPN结构融合的。

如图所示，FPN是自顶向下的，将高层特征通过上采样和低层特征做融合得到进行预测的特征图。Neck部分的立体图像，看下两部分是如何通过FPN+PAN结构进行融合的。

和Yolov3的FPN层不同，Yolov4在FPN层的后面还添加了一个自底向上的特征金字塔。这样结合操作，FPN层自顶向下传达强语义特征，而特征金字塔则自底向上传达强定位特征，两两联手，从不同的主干层对不同的检测层进行参数聚合,这样的操作确实很皮。
自底向上增强
如上图中所示，FPN是自顶向下，将高层的强语义特征传递下来，对整个金字塔进行增强，不过只增强了语义信息，对定位信息没有传递，而本文就是针对这一点，在FPN的后面添加一个自底向上的金字塔，可以说是很皮了。这样的操作是对FPN的补充，将低层的强定位特征传递上去，个人称之为”双塔战术“。
参考：
https://zhuanlan.zhihu.com/p/143747206utm_source=wechat_session&utm_medium=social&utm_oi=667962890661924864&from=singlemessage
https://www.cnblogs.com/wzyuan/p/10029830.html

FPN还是PAN或者后面的BiFPN都是类似的结构。FPN的理念就是增强不同层特征融合，在多尺度上进行预测。PAN在FPN的基础上又加了从下到上的融合。

我们都知道，深层的feature map携带有更强的语义特征，较弱的定位信息。而浅层的feature map携带有较强的位置信息，和较弱的语义特征。FPN就是把深层的语义特征传到浅层，从而增强多个尺度上的语义表达。而PAN则相反把浅层的定位信息传导到深层，增强多个尺度上的定位能力。

再联想后来的BiFPN，语义特征和定位信息在串联的FPN/PAN结构中被像踢皮球一样的“传来传去”…
————————————————
最后说一下全连接作用：全连接层其实可由卷积实现，可看作感受野为整个特征图的卷积核，所以全连接层是感受野更大的卷积，另外，这里的卷积参数不共享，每个像素点拥有一个卷积核，
————————————————
版权声明：本文为优快云博主「爱CV」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.youkuaiyun.com/qq_35054151/article/details/111461066