（七）卷积层——填充和步幅

最新推荐文章于 2025-07-21 11:24:48 发布

HawardScut

最新推荐文章于 2025-07-21 11:24:48 发布

阅读量7.8k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：深度学习

本文链接：https://blog.youkuaiyun.com/hao5335156/article/details/80554951

深度学习专栏收录该内容

18 篇文章

订阅专栏

本文详细介绍了在卷积神经网络中如何计算不同步幅下输出的尺寸，并讨论了填充的作用及多输入输出通道的情况。

在高上使用步幅 $s_h$ ，在宽上使用步幅 $s_w$ ，那么输出大小将是
$\lfloor(n_h-k_h+p_h+s_h)/s_h\rfloor \times \lfloor(n_w-k_w+p_w+s_w)/s_w\rfloor.$
其中， $n$ 是输入的长或者宽， $k$ 是卷积核的长或者宽， $p$ 是在高或者宽两侧一共填充p行或者列(一般用0填充), $s$ 是在高或者宽移动的步幅

1、默认步幅 $s = 1$

输出大小
$⌊(nh−kh+ph+1)/1⌋=nh−kh+ph+1\lfloor(n_h-k_h+p_h+1)/1\rfloor= n_h-k_h+p_h+1$

如果，使得输入和输出有相同的高宽，则设置一共的填充 $p_h=k_h-1$ 和 $p_w=k_w-1$

假设 $k_h$ 是奇数，那么在高的两侧分别填充 $p_h/2$ 行。如果其是偶数，一种可能是上面填充 $p_h/2⌉$ 行，而下面填充 $p_h/2⌋$ 行。在宽上行为类似。卷积神经网络经常使用奇数高宽的卷积核，例如1、3、5、和7，所以填充在两端上是对称的。这样还有一点方便的是我们知道输出Y[i,j]是由输入以X[i,j] (原始矩阵) 为中心的窗口同卷积核进行相关计算得来。

2、步幅为通用时

计算输入元素滑动最后一次，填不满窗口时，我们将其结果舍弃。
设置一共的填充 $p_h=k_h-1$ 和 $p_w=k_w-1$ ，输出大小简化为

$⌊(nh+sh−1)/sh⌋×⌊(nw+sw−1)/sw⌋\lfloor(n_h+s_h-1)/s_h\rfloor \times \lfloor(n_w+s_w-1)/s_w\rfloor$

3、多输入和输出通道

多输入通道：

假设输入通道数是 $c_i$ ，且卷积核窗口为 $k_h×k_w$ 。当 $c_i=1$ 时，我们知道卷积核就是一个 $k_h×k_w$ 数组。当其大于1时，我们将会为每个输入通道分配一个单独的 $k_h×k_w$ 核数组。我们将这些数组合并起来，将得到一个 $c_i×k_h×k_w$ 形状的卷积核。即输入通道数为n时候，相应的卷积核形状也跟着变（ $1×k_h×k_w$ 变 $n×k_h×k_w$ ），但是数目依然算是1。
这里写图片描述
（1个输出通道只用1个卷积核）