SPP-Net——"空间金字塔池化" (目标检测)(one-stage)(深度学习)(ECCV 2014)

最新推荐文章于 2025-06-22 09:23:46 发布

原创最新推荐文章于 2025-06-22 09:23:46 发布 · 1.9k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #深度学习 #SPP-Net #计算机视觉 #机器学习

目标检测同时被 2 个专栏收录

39 篇文章

订阅专栏

目标检测：经典论文解读

32 篇文章

订阅专栏

论文名称：《 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 》

论文下载：https://arxiv.org/pdf/1406.4729.pdf

论文代码：https://github.com/ShaoqingRen/SPP_net

1、概述：

这个算法比R-CNN算法的速度快了n多倍。我们知道在现有的CNN中，对于结构已经确定的网络，需要输入一张固定大小的图片，比如224*224、32*32、96*96等。这样对于我们希望检测各种大小的图片的时候，需要经过裁剪，或者缩放等一系列操作，这样往往会降低识别检测的精度，于是paper提出了“空间金字塔池化”方法，这个算法使得我们构建的网络，可以输入任意大小的图片，不需要经过裁剪缩放等操作。

既然之前的CNN要求输入固定大小的图片，那么我们首先需要知道为什么CNN需要输入固定大小的图片。

CNN大体包含3部分，卷积、池化、全连接。

1、卷积（卷积操作对图片输入的大小没有要求）：

比如一个5*5的卷积核，我输入的图片是30*81的大小，可以得到(26,77)大小的图片，并不会影响卷积操作。我输入600*500，它还是照样可以进行卷积，也就是卷积对图片输入大小没有要求，只要你喜欢，任意大小的图片进入，都可以进行卷积。:2

2、池化（池化对图片大小没有要求）：

比如我池化大小为（2，2）我输入一张30*40的，那么经过池化后可以得到15*20的图片。输入一张53*22大小的图片，经过池化后，我可以得到26*11大小的图片。因此池化这一步也没对图片大小有要求。只要你喜欢，输入任意大小的图片，都可以进行池化。

3、全连接层（全连接层对图片结果有要求）：

既然池化和卷积都对输入图片大小没有要求，那么就只有全连接层对图片结果又要求了。因为全连接层我们的连接劝值矩阵的大小W，经过训练后，就是固定的大小了，比如我们从卷积到全连层，输入和输出的大小，分别是50、30个神经元，那么我们的权值矩阵（50,30）大小的矩阵了。

因此空间金字塔池化，要解决的就是从卷积层到全连接层之间的一个过度。也就是说在以后的文献中，一般空间金子塔池化层，都是放在卷积层到全连接层之间的一个网络层。

这里写图片描述

在之前物体检测的文章，比如R-CNN中，他们都要求输入固定大小的图片，这些图片或者经过裁切（Crop）或者经过变形缩放（Warp），都在一定程度上导致图片信息的丢失和变形，限制了识别精确度。

事实上，在网络实现的过程中，卷积层是不需要输入固定大小的图片的，而且还可以生成任意大小的特征图，只是全连接层需要固定大小的输入。因此，固定长度的约束仅限于全连接层。在本文中提出了Spatial Pyramid Pooling layer 来解决这一问题，使用这种方式，可以让网络输入任意的图片，而且还会生成固定大小的输出。这样，整体的结构和之前的R-CNN有所不同。

这里写图片描述

2、空间金字塔池化（Spatital Pyramid Pooling）：

在解释什么是空间金字塔池化之前，先一下什么是空间金字塔。这里的理解就是以不同大小的块来对图片提取特征，比如下面这张图：

输入层：一张任意大小的图片,假设其大小为(w,h)。输出层：21个神经元。

也就是我们输入一张任意大小的特征图的时候，我们希望提取出21个特征。空间金字塔特征提取的过程如上图所示，当我们输入一张图片的时候，我们利用不同大小的刻度，对一张图片进行了划分。上面示意图中，利用了三种不同大小的刻度，对一张输入的图片进行了划分，最后总共可以得到16+4+1=21个块，我们即将从这21个块中，每个块提取出一个特征，这样刚好就是我们要提取的21维特征向量。
1) 第一张图片,我们把一张完整的图片，分成了16个块，也就是每个块的大小就是(w/4,h/4);
2) 第二张图片，划分了4个块，每个块的大小就是(w/2,h/2);
3) 第三张图片，把一整张图片作为了一个块，也就是块的大小为(w,h)；
空间金字塔最大池化的过程，其实就是从这21个图片块中，分别计算每个块的最大值，从而得到一个输出神经元。最后把一张任意大小的图片转换成了一个固定大小的21维特征（当然你可以设计其它维数的输出，增加金字塔的层数，或者改变划分网格的大小）。
上面的三种不同刻度的划分，每一种刻度我们称之为：金字塔的一层，每一个图片块大小我们称之为：windows size了。如果你希望，金字塔的某一层输出n*n个特征，那么你就要用windows
size大小为：(w/n,h/n)进行池化了。
当我们有很多层网络的时候，当网络输入的是一张任意大小的图片，这个时候我们可以一直进行卷积、池化，直到网络的倒数几层的时候，也就是我们即将与全连接层连接的时候，就要使用金字塔池化，使得任意大小的特征图都能够转换成固定大小的特征向量，这就是空间金字塔池化的奥义（多尺度特征提取出固定大小的特征向量）

分别是4*4，2*2，1*1大小的块，将这三张网格放到下面这张特征图上，就可以得到16+4+1=21种不同的切割方式，分别在每一个区域取最大池化，那么就可以得到21组特征。这种以不同的大小格子的组合方式来池化的过程就是空间金字塔池化（SPP）。

R-CNN提取特征比较耗时，需要对每个warp的区域进行学习，而SPPNet只对图像进行一次卷积，之后使用SPPNet在特征图上提取特征。结合EdgeBoxes提取的proposal，系统处理一幅图像需要0.5s。SPP层的结构如下，将紧跟最后一个卷积层的池化层使用SPP代替，输出向量大小为kM，k=#filters,M=#bins，作为全连接层的输入。至此，网络不仅可对任意长宽比的图像进行处理，而且可对任意尺度的图像进行处理。尺度在深层网络学习中也很重要。

现在，再来看这张完整的图像，因为卷积层输入的任意大小的图片，所以Conv5计算出的feature map也是任意大小的，现在经过SPP之后，就可以变成固定大小的输出了，以上图为例，一共可以输出（16+4+1）*256的特征，16+4+1表示空间盒的数量（Spatial bins），256则表示卷积核的数量。

总之，空间金字塔池化，使得任意大小的特征图都能够转换成固定大小的特征向量，这就是空间金字塔池化的意义（多尺度特征提取出固定大小的特征向量），送入全连接层。整体框架大致为：输入图像，卷积层提取特征，空间金字塔池化提取固定大小特征，全连接层。

3、网络训练：

1.multi-size训练，输入尺寸在[180,224]之间，假设最后一个卷积层的输出大小为，若给定金字塔层有
个bins，进行滑动窗池化，窗口尺寸为，步长为，使用一个网络完成一个完整epoch的训练，之后切换到另外一个网络。只是在训练的时候用到多尺寸，测试时直接将SPPNet应用于任意尺寸的图像。
2.如果原图输入是224x224，对于conv5出来后的输出，是13x13x256的，可以理解成有256个这样的filter，每个filter对应一张13x13的reponse map。

如果像图*那样将reponse map分成4x4 2x2 1x1三张子图，做max pooling后，出来的特征就是固定长度的(16+4+1)x256那么多的维度了。如果原图的输入不是224x224，出来的特征依然是(16+4+1)x256

直觉地说，可以理解成将原来固定大小为(3x3)窗口的pool5改成了自适应窗口大小，窗口的大小和reponse map成比例，保证了经过pooling后出来的feature的长度是一致的

4、物体检测：

1、SPP的优点：

1）任意尺寸输入，固定大小输出

2）层多

3）可对任意尺度提取的特征进行池化。

2、SPP-net：

带有SPP layer的网络叫做SPP-net，它在物体检测上跟R-CNN也有一定的区别。首先是特征提取上，速度提升了好多，R-CNN是直接从原始图片中提取特征，它在每张原始图片上提取2000个Region Proposal，然后对每一个候选区域框进行一次卷积计算，差不多要重复2000次，而SPP-net则是在卷积原始图像之后的特征图上提取候选区域的特征。所有的卷积计算只进行了一次，效率大大提高。

这里写图片描述

从这张图片上应该可以看到两者之间的计算差别。

在SPP-Net还没出来之前，物体检测效果最牛逼的应该是RCNN算法了，下面跟大家简单讲一下R-CNN的总算法流程，简单回顾一下：
1、首先通过选择性搜索，对待检测的图片进行搜索出2000个候选窗口。
2、把这2k个候选窗口的图片都缩放到227*227，然后分别输入CNN中，每个候选窗台提取出一个特征向量，也就是说利用CNN进行提取特征向量。
3、把上面每个候选窗口的对应特征向量，利用SVM算法进行分类识别。
可以看到R-CNN计算量肯定很大，因为2k个候选窗口都要输入到CNN中，分别进行特征提取，计算量肯定不是一般的大。
接着回归正题，如何利用SPP-Net进行物体检测识别？具体算法的大体流程如下：
1、首先通过选择性搜索，对待检测的图片进行搜索出2000个候选窗口。这一步和R-CNN一样。
2、特征提取阶段。这一步就是和R-CNN最大的区别了，同样是用卷积神经网络进行特征提取，但是SPP-Net用的是金字塔池化。这一步骤的具体操作如下：把整张待检测的图片，输入CNN中，进行一次性特征提取，得到feature maps，然后在feature maps中找到各个候选框的区域，再对各个候选框采用金字塔空间池化，提取出固定长度的特征向量。而R-CNN输入的是每个候选框，然后在进入CNN，因为SPP-Net只需要一次对整张图片进行特征提取，速度是大大地快啊。江湖传说可一个提高100倍的速度，因为R-CNN就相当于遍历一个CNN两千次，而SPP-Net只需要遍历1次。
3、最后一步也是和R-CNN一样，采用SVM算法进行特征向量分类识别。