论文名称:《Feature Pyramid Networks for Object Detection》
论文链接:https://arxiv.org/abs/1612.03144
参考代码(非官方):https://github.com/jwyang/fpn.pytorch(Pytorch实现)
综述
多尺度目标检测是计算机视觉领域的一个基础且具挑战性的课题,尤其是在目标检测方面。下图是目前常用的四种多尺度处理方法。
-
特征金字塔
特征金字塔是在图像金字塔基础上构建构建形成的,这种方法早期使用在人工提取的特征上。随着深度学习的流行,深度卷积特征成为主流。特征金字塔结构的优势是可以产生多尺度的特征,其中每一层都是语义信息加强的,包括高分辨率的低层。但这样的方法需要很高的时间及计算量消耗,难以在实际中应用。 -
特征最上层进行预测
由于CNN在计算的时候本身就存在多级特征图,不同层的特征图尺度也不同,天然形成了金字塔结构,其中最上层的特征语义化程度最高,可以使用进行预测,FasterRCNN便是这个思路。但由于前后层之间不同深度影响,语义信息差距太大,高分辨率的低层特征很难有代表性的检测能力。 -
特征分层预测
这种方法借鉴了特征金字塔的思路,直接强行让每层分别预测对应的尺度分辨率的检测结果,SSD就采用了类似的思想。而对于CNN而言,不同深度对应着不同层次的语义特征。浅层网络分辨率高,学的更多是细节特征,深层网络分辨率低,学的更多是语义特征。这