《Feature Pyramid Networks for Object Detectin》CVPR2017
通常,利用网络对物体进行检测时,浅层网络分辨率高,学到的是图片的细节特征,深层网络,分辨率低,学到的更多的是语义特征。
1)、通常的CNN使用如下图中显示的网络,使用最后一层特征图进行预测

例如VGG16,feat_stride=16,表示若原图大小是1000x600,经过网络后最深一层的特征图大小是60x40,可理解为特征图上一像素点映射原图中一个16x16的区域;那这个是不是就表示,如果原图中有一个小于16x16大小的小物体,是不是就会被忽略掉,检测不到呢!
所以,使用上图中的网络的缺点就是,会造成检测小物体的性能急剧下降
2)、如果上面的单层检测会丢失细节特征;就会想到,利用图像的各个尺度进行训练和测试,比如下图所展示(图片金字塔生成特征金字塔)

将图片缩放成多个比例,每个比例单独提取特征图进行预测,这样,可以得到比较理想的结果,但是比较耗时,不太适合运用到实际当中。
3)、为了节约时间,直接使用卷积网络中产生的各层特征图分别进行预测

SSD网络也采用了类似的思想,这种方法的问题在于,让不同深度的特征图去学习同样的语义信息,同样会忽略掉底层网络中的细节特征
4)FPN网络,网络结构原理如下图所示

最低0.47元/天 解锁文章
9795

被折叠的 条评论
为什么被折叠?



