SPP-NET:基于空间金字塔池化深层卷积神经网络的视觉模式识别
还记得RCNN一文中提到的缺点之一吗,CNN需要为每一个region proposal进行一次卷积特征提取,尤为耗时。SPP-NET就可以很好的解决这个问题啦,您请往下看。
CNN网络一般需要一个固定大小的图片输入,因此我们需要将图片转换成指定大小,而这样会改变图像的分辨率,比例而影响效果。而卷积-池化层是不需要固定输入的,输出会等比例缩放而已。需要固定大小输入的是全连接层,文章提出一种SPP-NET,通过将空间金字塔池化加入到全连接层的前面产生一个固定的输出,从而允许CNN接受任意大小的输入。这种方法也解决了RCNN对于每一个区域候选都重复进行卷积特征提取造成的耗时问题,从而30-170倍的提升了目标检测的效率。
摘要和引言
近年来,CNN方法大规模提高计算机视觉的准确度,但是我们看到,通常的CNN模型需要一个固定大小的输入,如:227*227。这时我们需要将我们的训练图片进行一定的处理以符合这个固定输入,但是这样也带来了很多的问题。诸如,破坏了图像的比列,尺度,内容。这引发我们思考,为什么卷积神经网络需要这样的固定输入。我们知道CNN主要包含卷积层以及全连接层。卷积层用以提取图像的深层特征,这些特征不仅是物体的某一部分的语义激活,也反应了这些特征在图像中的具体位置。
但是我们的卷积层可以接受任意比例和大小的输入,因为卷积层只是一个滑窗提取特征的过程。CNN需要固定的输入主要是由于全连接层的需要。因此本文提出空间金字塔池化加在卷积层和全连接层之间,将卷积层提取到的特征转换成一个固定长度的向量用以全连接层的输入。
同时这也更加符合人眼看世界的逻辑,我们观察一副图像的时候,并不会将图像中每一个目标resize到相同的大小,也就是只进行一次特征提取然后进行区域注意。
这样一来我们的SPP-NET就有很多优点了,比如能处理任意大小的输入