FPN实验总结

FPN(Feature Pyramid Network)通过构建特征金字塔结构,解决了物体检测中网络深度与分辨率之间的矛盾,尤其提升了小物体检测的性能。它通过自上而下的信息传递和侧边连接,使得不同层的特征既具有高分辨率又包含丰富语义信息。实验表明,FPN在Faster RCNN上实现了state-of-the-art的精度,并且在RPN和Fast RCNN的两个步骤中均有显著效果。

这个实验虚拟环境踩了一些坑(版本问题),不过在notebook上体验了一下retinanet的实验结果,参考的是FAIR最新视觉论文集锦机器之心论文解读
在物体检测里面,有限计算量情况下,网络的深度(对应到感受野)与 stride 通常是一对矛盾的东西,常用的网络结构对应的 stride 一般会比较大(如 32),而图像中的小物体甚至会小于 stride 的大小,造成的结果就是小物体的检测性能急剧下降。传统解决这个问题的思路包括:(1)多尺度训练和测试,又称图像金字塔,如图 1(a) 所示。目前几乎所有在 ImageNet 和 COCO 检测任务上取得好成绩的方法都使用了图像金字塔方法。然而这样的方法由于很高的时间及计算量消耗,难以在实际中应用。(2)特征分层,即每层分别预测对应的 scale 分辨率的检测结果。如图 1(c) 所示。SSD 检测框架采用了类似的思想。这样的方法问题在于直接强行让不同层学习同样的语义信息。而对于卷积神经网络而言,不同深度对应着不同层次的语义特征,浅层网络分辨率高,学的更多是细节特征,深层网络分辨率低,学的更多是语义特征。金字塔结构的优势是其产生的特征每一层都是语义信息加强的,包括高分辨率的低层把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,高层的特征往下传补充了低层的语义,使得所有尺度下的特征都有丰富的语义信息。这样就可以获得高分辨率、强语义的特征,有利于小目标的检测。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值