四张图彻底搞懂CNN反向传播算法

最新推荐文章于 2022-11-03 12:40:54 发布

原创最新推荐文章于 2022-11-03 12:40:54 发布 · 1.4k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#卷积神经网络 #max pooling #average pooling #cnn #反向传播算法

深度学习同时被 2 个专栏收录

6 篇文章

订阅专栏

卷积神经网络

1 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

阅读本文之前，请首先阅读之前讲述的全连接层的反向传播算法详细推导过程：全连接反向传播算法。已经了解反向传播算法请自动忽略。

1. 卷积层的反向传播

直接上图：

假设输入为一张单通道图像 $x$ ，卷积核大小为 $2\times 2$ ，输出为 $y$ 。为了加速计算，首先将 $x$ 按卷积核滑动顺序依次展开，如上图所示。其中， $\hat{x}$ 中的红色框代表 $x$ 中的红色框展开后的结果，将 $x$ 依次按照此方式展开，可得 $\hat{x}$ 。同理可得 $\hat{w}$ ，然后通过矩阵相乘可得输出 $\hat{y}$ （ $\hat{y}$ 与 $y$ 等价）。此时，已经将CNN转化为FC，与反向传播算法完全一致，这里不再做详细介绍。

当有 $N$ 个样本，即batch=N时，前向与反向传播方式如下图所示：
在这里插入图片描述
其中，输入图像batch=3,使用2个 $2\times 2\times 3$ 的卷积核，输出两张图像，如图所示。红色框、黄色框代表的是卷积核以及使用该卷积核得到的输出图像 $y$ 。当输入图像为一个batch时， $x 、 w$ 的转化方式如上图，首先将输入图像与卷积核分别按单通道图像展开，然后将展开后的矩阵在行方向级联。此时，已经将CNN转化为了FC，与反向传播算法完全一致，这里不再做详细介绍。

2. Average pooling的反向传播

在这里插入图片描述
$\frac{\partial J}{\partial w}$ 不用求，因为 $w$ 为常数。 $\frac{\partial J}{\partial x_{ij}}=\Sigma \frac{\partial J}{\partial \hat{x}_{ij}}$

3. Max-pooling的反向传播

在这里插入图片描述
遍历 $\hat{x}$ 的每一行，找出此行最大值的索引 $(i, j)$ ，然后将 $\frac{\partial J}{\partial \hat{x}}$ 中索引为 $(i, j)$ 的值设为 $\frac{\partial J}{\partial \hat{y}}$ 对应行的值，将此行其余列的值设为0，如上图所示红框所示。假设 $\hat{x}$ 中(1,1)处的值是第一行中最大的值，则将 $\frac{\partial J}{\partial y_{11}}$ 赋值给 $\frac{\partial J}{\partial \hat{x}}$ 中索引为 $(1, 1)$ 的位置。最后计算: $\frac{\partial J}{\partial x_{ij}}=\Sigma \frac{\partial J}{\partial \hat{x}_{ij}}$