池化方法总结（Pooling）

最新推荐文章于 2025-11-02 22:29:28 发布

原创

最新推荐文章于 2025-11-02 22:29:28 发布 · 6.4w 阅读

CC 4.0 BY-SA版权

文章标签：

本文总结了卷积神经网络中池化操作的重要性及其不同类型，包括一般池化、重叠池化和空间金字塔池化。一般池化通过平均值或最大值减少特征维度，防止过拟合；重叠池化能提高精度；空间金字塔池化则允许CNN处理任意尺寸图像，保持信息完整。

在卷积神经网络中，我们经常会碰到池化操作，而池化层往往在卷积层后面，通过池化来降低卷积层输出的特征向量，同时改善结果（不易出现过拟合）。

为什么可以通过降低维度呢？

因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值)来代表这个区域的特征。[1]

池化作用于图像中不重合的区域（这与卷积操作不同），过程如下图。

我们定义池化窗口的大小为sizeX，即下图中红色正方形的边长，定义两个相邻池化窗口的水平位移/竖直位移为stride。一般池化由于每一池化窗口都是不重复的，所以sizeX=stride。

最常见的池化操作为平均池化mean pooling和最大池化max pooling：

平均池化：计算图像区域的平均值作为该区域池化后的值。

5 条评论

lmw0320 2019.12.26
关于空间金字塔池化的描述，有点看不明白：由于conv5中共有256个过滤器，所以得到1个256维的特征，4个256维特征，以及16个256维的特征，然后把这21个256维特征链接起来输入全连接层，通过这种方式把不同大小的图像转化成相同维度的特征。----这个意思是说： 1）conv5的矩阵是256层的深度么？？ 2）如何得到1个256的特征，4个256维特征，以及16个256维的特征呢？就是用不同的池化窗口得到的吧？--感觉有点类似不同的卷积核的卷积过程，只是卷积核的大小统一。这里貌似就是设置了3个池化窗口，每个窗口的大小可以事先获取conv5输入的矩阵平面维度，将其均匀切割得到。。不知道理解对不对。
- hecha123回复lmw0320 2020.03.26
  [reply]lmw0320[/reply]卷积核的大小是不一样的，一样的是最终的输出结果，就是最终输出的特征向量为4*4,2*2和1*1大小的

yaoxingfu72 2015.10.06
疑问：如果conv5输出的大小为14*14，[pool1*1]的sizeX=stride=14，[pool2*2]的sizeX=stride=7，这些都没有问题，但是，[pool4*4]的sizeX=5，stride=4，最后一列和最后一行特征没有被池化操作计算在内。博主，最后pool4*4计算错了，sizeX=4（取14/4 的上界），stride=3
- ppdouble回复01dcat 2021.10.23
  所以原文图3应该是pool4x4，图4是pool3x3
- 01dcat回复yaoxingfu72 2016.11.02
  [reply]yaoxingfu72[/reply] 您好，假设按照SPP-Net原文里面的说法，最后一层是13*13，那pool3*3的bins不是应该为3*3（原文的n*n），为什么会是画了16个格子啊，这一点一直不理解。。好纠结