五种方式介绍
最近刚刚接触了FPN, 学习了解的过程中,知道了特征融合的几种方式,故总结一下;
(a) Featurized image pyramid(图像金字塔),输出为不同尺度的特征,这种方式需要将同一张图片的不同尺寸分别输入网络,分别计算对应的 feature map 并预测结果,这种方式虽然可以提升预测精度但计算资源消耗太大,又增加了时间成本。
(b) Single feature map,分类任务常用的网络结构,深层特征包含了丰富的语义信息适用于分类任务,由于分类任务对目标的位置信息并不敏感所以富含位置信息的浅层特征没用被再次使用,而这种结构也导致了分类网络对小目标的检测精度并不高,Fast RCNN,Faster RCNN是采用的这种方式。
© Pyramid feature hierarchy,SSD 的多尺度特征应用方式,从网络不同层抽取不同尺度的特征做预测,这种方式不会增加额外的计算量。
(d) Feature Pyramid Network,顶层特征通过上采样和低层特征做融合,而且每层都是独立预测的。
(e) U-net 所采用的结构,与 (d) 的整体结构类似,但只在最后一层进行预测。