1. 概述
代码地址:mscnn
文章为快速多尺度目标检测提出了一个统一的神经网络叫做multi-scale CNN(MSCNN)。MSCNN由一个proposal子网络和一个检测子网络组成。proposal子网中,在多个尺度输出层进行检测,使接受域匹配不同尺度的对象。将这些不同尺度检测的结果合在一起能够产生一个强大的多尺度检测器。通过优化多任务损失,实现了统一网络的端到端学习。此外,还探讨了反卷积特征上采样作为输入上采样的一种替代方法,以减少内存和计算成本。
这篇文章中将Faster RCNN进行多尺度化,从而提升了对于小目标的辨别能力。这是由于RPN通过在一组固定的卷积特征图上滑动一组固定的滤波器,生成多个尺度的proposal。这就造成了对象大小(可变)和筛选接受域(固定)之间的不一致。下面图1就是说明了RPN感受野的问题,导致小目标的检测性能相对较低。
对于多尺度目标检测,主要由如下的几种策略:
(a)变换图像的输入尺度得到不同尺度的feature map,从而使得网络可以适配多种尺度的目标输入,因而有较高的性能,但是计算代价大。
(b)在固定的输入尺度与feature map上使用多个尺度的分类器,避免了带来较大的计算量,但是性能很一般。
(c)使用少量的尺度再得到这些尺度的分类结果
(d)对输入进行少量尺度的计算并通过插值去弥补缺失的特征图。已被证明可以在分类精度损失很小的情况下实现达到快的速度。
以上的几种方法由于CNN网络特征的复杂性,并没有在检测网络中采用。
(e)这里的方法和(a)比较相