DNN和CNN的反向传播算法（全连接层、卷积层、池化层）

最新推荐文章于 2023-03-28 14:53:14 发布

Puppy_L

最新推荐文章于 2023-03-28 14:53:14 发布

阅读量1.2k

点赞数

文章标签：神经网络卷积神经网络

本文链接：https://blog.youkuaiyun.com/qq_36665989/article/details/119801825

版权

本文章包含DNN和CNN反向传播算法的详细推导，特别是CNN的反向传播算法中对权重求偏导数的公式中补零和卷积核旋转的详细推导。
反向传播算法是用来计算神经网络（NN）的可训练参数的偏导数的算法。在神经网络的训练中，对于一个参数（例如权重）的更新，往往采用下面的式子。
$w_{i,j}=w_{i,j}-\alpha \sum_{k\in B}\frac{\partial J_k}{\partial w_{i,j}}.$
其中 $w_{i,j}$ 是某个我们想要更新的权重， $\alpha$ 是学习率（一般比较小，例如 $1\times 10^{-3}$ ）， $B$ 是一个mini-batch的集合， $J_k$ 是这个mini-batch中第 $k$ 个样本经过现有神经网络后的损失函数。如果不使用mini-batch的训练方法，即每次更新参数只输入一个样本，则上式变为
$w_{i,j}=w_{i,j}-\alpha \frac{\partial J}{\partial w_{i,j}}.\tag{1}$
其中 $\frac{\partial J}{\partial w_{i,j}}$ 是损失函数对于该权重的偏导数。偏导数可以用数值微分的方法求得。

1. 数值微分

下面用一个简单的函数为例简要说明数值微分求偏导数的方法。考虑一个函数 $z = f (x, y)$ ，则该函数相对于 $x$ 和 $y$ 的偏导数可以表示为
$\frac{\partial z}{\partial x}=limit_{\Delta h\rightarrow0}\frac{f(x+\Delta h,y)-f(x-\Delta h,y)}{2\Delta h},\\ \frac{\partial z}{\partial y}=limit_{\Delta h\rightarrow0}\frac{f(x,y+\Delta h)-f(x,y-\Delta h)}{2\Delta h}.$
所谓的数值微分的方法，是指在实际计算中，我们取 $\Delta h$ 为较小的值，例如 $1\times 10^{-4}$ ，则上述两个偏导数计算为
$\frac{\partial z}{\partial x}=\frac{f(x+\Delta h,y)-f(x-\Delta h,y)}{2\Delta h},\\ \frac{\partial z}{\partial y}=\frac{f(x,y+\Delta h)-f(x,y-\Delta h)}{2\Delta h}.$
对于神经网络而言，直接计算损失函数 $J$ 的计算量大，因此计算 $J(w_{i,j}+\Delta h)$ 和 $J(w_{i,j}-\Delta h)$ 的计算量大。此外需要更新的参数量大，对于每个参数都需要计算损失函数的偏微分，所以用数值微分的方法太过复杂。因此在神经网络中，有一种成为后向传播的方法来高效地计算每个参数对应的损失函数的偏导数。

2. DNN的后向传播算法

为了简单，不考虑mini-batch，因此下面的推导针对(1)中每次只有一个样本经过神经网络的情况。对于min-batch中一次多个样本参与训练的情况，算法完全一样，区别在于更新时将所有样本的偏导数求和（对应 $\sum_{k\in B}$ ）。
首先我们约定一些对于DNN的符号。对于层数的表示，用上标" $(l)$ "，于是一个 $L$ 层的DNN有 $l=0,1,\dots L-1$ ；对于向量中的元素的index，用下标表示。DNN中层 $l$ 所用的激活函数记为 $\sigma_l$ ，则如下图，对于一个向量 $\bm{x}^{(l)}$ ，他通过激活函数后记为 $\sigma_l(\bm{x}^{(l)})$ 。（实际上，激活函数是否相同不影响算法的推导正确性，这里只是为了表示简单。）对于神经网络的层 $l$ ，他的输入是上一层的输出向量 $\bm{y}^{(l-1)}$ ，这里用列向量表示，即
$\bm{y}^{l-1}= \left[ \begin{array}{c} y^{(l-1)}_0\\ y^{(l-1)}_1\\ \vdots\\ y^{(l-1)}_{n_{l-1}-1} \end{array} \right].$
其中 $n_{l-1}$ 是该列向量的长度，也是上一层（层 $l - 1$ ）的输出数目。图中的 $n (l - 1)$ 即文中的 $n_{l-1}$ 。于是我们有
$\bm{y}^{(l)}=\sigma_l(\bm{x}^{(l)}), l=0,1,\dots,L-1.$
层 $l$ 的权重用矩阵 $\bm{W}^{(l)}$ 表示，有
$\bm{W}^{(l)}= \left[ \begin{array}{cccc} W^{(l)}_{0,0} & W^{(l)}_{0,1} & \dots & W^{(l)}_{0,n_{l-1}-1}\\ W^{(l)}_{1,0} & W^{(l)}_{1,1} & \dots & W^{(l)}_{1,n_{l-1}-1}\\ \vdots&\vdots&\ddots&\vdots\\ W^{(l)}_{n_l-1,0} & W^{(l)}_{n_l-1,1} & \dots & W^{(l)}_{n_l-1,n_{l-1}-1} \end{array} \right],$
和
$\bm{x}^{(l)}=\bm{W}^{(l)}\bm{y}^{(l-1)}+\bm{b}^{(l)}.$
其中 $\bm{b}^{(l)}$ 是层 $l$ 的偏置(bias)向量。
在这里插入图片描述

有了上述符号，我们下面来推导DNN的反向传播算法

2.1 多元复合函数的微分：链式法则

反向传播算法求偏导的最重要的数学基础就是多元复合函数微分中的链式法则。一个简单的例子是，考虑函数 $z = h (x, y)$ , $x = f (t)$ 和 $y = g (t)$ ，则有
$\frac{\partial z}{\partial t}=\frac{\partial z}{\partial x}\frac{\partial x}{\partial t}+\frac{\partial z}{\partial y}\frac{\partial y}{\partial t}.$
考虑一般情况 $z$ 是变量 $y_0,y_1,\dots,y_{n_y-1}$ 的函数，同时 $y_{i}$ （ $i=0,1,\dots,n_y-1$ ）均是 $x_0,x_1,\dots,x_{n_x-1}$ 的函数，则 $z$ 对于 $x_i$ （ $i=0,1,\dots,n_x-1$ ）的偏导可以利用链式法则表示为
$\frac{\partial z}{\partial x_i}=\sum^{n_y-1}_{i=0}\frac{\partial z}{\partial y_i}\sum^{n_x-1}_{j=0}\frac{\partial y_i}{\partial x_j}=\sum^{n_y-1}_{i=0}\sum^{n_x-1}_{j=0}\frac{\partial z}{\partial y_i}\frac{\partial y_i}{\partial x_j}.$

2.2 最后一层（层 $L - 1$ ）的偏导数

要求损失函数对于权重的偏导 $\frac{\partial J}{\partial \bm{W}^{(L-1)}}$ ，需要先求损失函数对于 $\bm{x}^{(L-1)}$ 的偏导，因为
$\bm{x}^{(L-1)}=\bm{W}^{(L-1)}\bm{y}^{(L-2)}+\bm{b}^{(L-1)},$
所以 $\frac{\partial J}{\partial \bm{W}^{(L-1)}}$ 可以通过链式法则计算得到。同理，要通过链式法则求损失函数对于 $\bm{x}^{(L-1)}$ 的偏导 $\frac{\partial J}{\partial \bm{x}^{(L-1)}}$ ，需要先求损失函数对于 $\bm{y}^{(L-1)}$ 的偏导 $\frac{\partial J}{\partial \bm{y}^{(L-1)}}$ 。
在后面的推导中，损失函数对于 $\bm{x}^{(l)}$ 的偏导 $\frac{\partial J}{\partial \bm{x}^{(l)}}$ 是一个重要的中间量，因此我们记为
$\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}, l=0,1,\dots,L-1.$
假设最后一层的输出 $\bm{y}^{(L-1)}$ 是一个标量，则有 $y^{(L-1)}=\sigma_{L-1}(\bm{x}^{(L-1)})$ 。例如在图片识别中，将 $\bm{x}^{(L-1)}$ 通过softmax函数，得到一个图片标签的预测值。假设损失函数是均方差，样本的标签为 $t$ ，那么有
$J=\frac{1}{2}(y^{(L-1)}-t)^2=\frac{1}{2}(\sigma_{L-1}(\bm{x}^{(L-1)})-t)^2.$
显然，
$\frac{\partial J}{\partial y^{(L-1)}}=y^{(L-1)}-t.$
我们需要进一步求 $\bm{\delta}^{(L-1)}=\frac{\partial J}{\partial \bm{x}^{(L-1)}}$ .根据链式法则，
$\delta^{(L-1)}_i=\frac{\partial J}{\partial x^{(L-1)}_i}=\frac{\partial J}{\partial y^{(L-1)}}\frac{\partial y^{(L-1)}}{\partial x^{(L-1)}_i}=(y^{(L-1)}-t)\frac{\partial \sigma_{L-1}(\bm{x}^{(L-1)})}{\partial x^{(L-1)}_i}.$
写成向量形式，为
$\bm{\delta}^{(L-1)}=\frac{\partial J}{\partial \bm{x}^{(L-1)}}=(y^{(L-1)}-t)(\sigma^{'}_{L-1}(\bm{x}^{(L-1)}).$
至此，我们展示了如何计算DNN最后一层的 $\bm{\delta}^{(L-1)}$ 。

2.3 中间层 $l$ 的偏导数

这一节我们展示如何通过 $\bm{\delta}^{(l)}$ 反向传播计算得到 $\bm{\delta}^{(l-1)}$ 。
因为有 $\bm{x}^{(l)}=\bm{W}^{(l)}\bm{y}^{(l-1)}=\bm{W}^{(l)}\sigma_{l-1}(\bm{x}^{(l-1)})$ ，我们先考虑由 $\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}$ 计算 $\frac{\partial J}{\partial \bm{y}^{(l-1)}}$ 。重写 $\bm{x}^{(l)}$ 和 $\bm{y}^{(l-1)}$ 如下
$\left[ \begin{array}{c} x^{(l)}_0\\ x^{(l)}_1\\ \vdots\\ x^{(l)}_{n_l-1} \end{array} \right] =\left[ \begin{array}{cccc} W^{(l)}_{0,0} & W^{(l)}_{0,1} & \dots & W^{(l)}_{0,n_{l-1}-1}\\ W^{(l)}_{1,0} & W^{(l)}_{1,1} & \dots & W^{(l)}_{1,n_{l-1}-1}\\ \vdots&\vdots&\ddots&\vdots\\ W^{(l)}_{n_l-1,0} & W^{(l)}_{n_l-1,1} & \dots & W^{(l)}_{n_l-1,n_{l-1}-1} \end{array} \right] \left[ \begin{array}{c} y^{(l-1)}_0\\ y^{(l-1)}_1\\ \vdots\\ y^{(l-1)}_{n_{l-1}-1} \end{array} \right]+ \left[ \begin{array}{c} b^{(l)}_0\\ b^{(l)}_1\\ \vdots\\ b^{(l)}_{n_{l}-1} \end{array} \right].$
根据链式法则不难看出
$\frac{\partial J}{\partial y^{(l-1)}_i}=\frac{\partial J}{\partial x^{(l)}_0}W^{(l)}_{0,i}+\frac{\partial J}{\partial x^{(l)}_1}W^{(l)}_{1,i}+\dots+\frac{\partial J}{\partial x^{(l)}_{n_l-1}}W^{(l)}_{n_l-1,i}, i=0,1,\dots,n_{l-1}-1.$
所以写成向量形式，有
$\frac{\partial J}{\partial y^{(l-1)}_i}=\left[W^{(l)}_{0,i},W^{(l)}_{1,i},\dots,W^{(l)}_{n_l-1,i}\right] \left[ \begin{array}{c} \frac{\partial J}{\partial x^{(l)}_0}\\ \frac{\partial J}{\partial x^{(l)}_1}\\ \vdots\\ \frac{\partial J}{\partial x^{(l)}_{n_l-1}} \end{array} \right]=\left[W^{(l)}_{0,i},W^{(l)}_{1,i},\dots,W^{(l)}_{n_l-1,i}\right]\bm{\delta}^{(l)},\\ i=0,1,\dots,n_{l-1}-1.$
进一步，
$\frac{\partial J}{\partial \bm{y}^{(l-1)}}= \left[ \begin{array}{c} \frac{\partial J}{\partial y^{(l-1)}_0}\\ \frac{\partial J}{\partial y^{(l-1)}_1}\\ \vdots\\ \frac{\partial J}{\partial y^{(l-1)}_{n_{l-1}-1}} \end{array} \right]= \left[ \begin{array}{cccc} W^{(l)}_{0,0}&W^{(l)}_{1,0}&\dots&W^{(l)}_{n_l-1,0}\\ W^{(l)}_{0,1}&W^{(l)}_{1,1}&\dots&W^{(l)}_{n_l-1,1}\\ \vdots&\vdots&\ddots&\vdots\\ W^{(l)}_{0,n_{l-1}-1}&W^{(l)}_{1,n_{l-1}-1}&\dots&W^{(l)}_{n_l-1,n_{l-1}-1} \end{array} \right] \bm{\delta}^{(l)}=(\bm{W}^{(l)})^T\bm{\delta}^{(l)}.$
于是，
$\bm{\delta}^{(l-1)}= \left[ \begin{array}{c} \frac{\partial J}{\partial x^{(l-1)}_0}\\ \frac{\partial J}{\partial x^{(l-1)}_1}\\ \vdots\\ \frac{\partial J}{\partial x^{(l-1)}_{n_{l-1}-1}} \end{array} \right]= \left[ \begin{array}{c} \frac{\partial J}{\partial y^{(l-1)}_0}\sigma^{'}_{l-1}(x^{(l-1)}_0)\\ \frac{\partial J}{\partial y^{(l-1)}_1}\sigma^{'}_{l-1}(x^{(l-1)}_1)\\ \vdots\\ \frac{\partial J}{\partial y^{(l-1)}_{n_{l-1}-1}}\sigma^{'}_{l-1}(x^{(l-1)}_{n_{l-1}-1}) \end{array} \right]=(\bm{W}^{(l)})^T\bm{\delta}^{(l)}\odot\sigma^{'}_{l-1}(\bm{x}^{(l-1)}).$
其中 $\odot$ 是点乘。至此，我们推导出DNN中前几层 $\bm{\delta}^{(l)}$ 的递推关系 $\bm{\delta}^{(l-1)}=(\bm{W}^{(l)})^T\bm{\delta}^{(l)}\odot\sigma^{'}_{l-1}(\bm{x}^{(l-1)})$ 。可见，反向传播时，层 $l$ 的 $\delta$ 左乘该层权重矩阵 $\bm{W}^{(l)}$ 的转置，再点乘层 $l - 1$ 的激活函数的导数向量。

2.4 权重 $\bm{W}^{(l)}$ 和偏置 $\bm{b}^{(l)}$ 的偏导

在讲如何计算每层权重和偏置的偏导之前，先总结一下前面的结果。

输出层 $L - 1$	$\bm{\delta}^{(L-1)}=\frac{\partial J}{\partial \bm{y}^{(L-1)}}\odot\sigma^{'}_{L-1}(\bm{x}^{(L-1)})$
前面层 $l$ ， $l=1,\dots,L-1$	$\bm{\delta}^{(l-1)}=(\bm{W}^{(l)})^T\bm{\delta}^{(l)}\odot\sigma^{'}_{l-1}(\bm{x}^{(l-1)})$

利用这两个式子，可以求出所有层的 $\bm{\delta}^{(l)}$ 。
为了方便，重写前面的一个式子。
$\left[ \begin{array}{c} x^{(l)}_0\\ x^{(l)}_1\\ \vdots\\ x^{(l)}_{n_l-1} \end{array} \right] =\left[ \begin{array}{cccc} W^{(l)}_{0,0} & W^{(l)}_{0,1} & \dots & W^{(l)}_{0,n_{l-1}-1}\\ W^{(l)}_{1,0} & W^{(l)}_{1,1} & \dots & W^{(l)}_{1,n_{l-1}-1}\\ \vdots&\vdots&\ddots&\vdots\\ W^{(l)}_{n_l-1,0} & W^{(l)}_{n_l-1,1} & \dots & W^{(l)}_{n_l-1,n_{l-1}-1} \end{array} \right] \left[ \begin{array}{c} y^{(l-1)}_0\\ y^{(l-1)}_1\\ \vdots\\ y^{(l-1)}_{n_{l-1}-1} \end{array} \right]+ \left[ \begin{array}{c} b^{(l)}_0\\ b^{(l)}_1\\ \vdots\\ b^{(l)}_{n_{l}-1} \end{array} \right].$
在该式中，含有权重 $\bm{W}^{(l)}$ 和偏置 $\bm{b}^{(l)}$ ，而我们现在已经得到了每一层的 $\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}$ ，因此利用链式法则计算 $\frac{\partial J}{\partial \bm{W}^{(l)}}$ 和 $\frac{\partial J}{\partial \bm{b}^{(l)}}$ 并不困难。注意 $\frac{\partial J}{\partial \bm{W}^{(l)}}$ 是一个矩阵：
$\begin{aligned} \frac{\partial J}{\partial \bm{W}^{(l)}}&= \left[ \begin{array}{cccc} \frac{\partial J}{\partial W^{(l)}_{0,0}} & \frac{\partial J}{\partial W^{(l)}_{0,1}} & \dots & \frac{\partial J}{\partial W^{(l)}_{0,n_{l-1}-1}}\\ \frac{\partial J}{\partial W^{(l)}_{1,0}} & \frac{\partial J}{\partial W^{(l)}_{1,1}} & \dots & \frac{\partial J}{\partial W^{(l)}_{1,n_{l-1}-1}}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial J}{\partial W^{(l)}_{n_l-1,0}} & \frac{\partial J}{\partial W^{(l)}_{n_l-1,1}} & \dots & \frac{\partial J}{\partial W^{(l)}_{n_l-1,n_{l-1}-1}} \end{array} \right]\\ &=\left[ \begin{array}{cccc} \frac{\partial J}{\partial x^{(l)}_{0}}y^{(l-1)}_0 & \frac{\partial J}{\partial x^{(l)}_{0}}y^{(l-1)}_1 & \dots & \frac{\partial J}{\partial x^{(l)}_{0}}y^{(l-1)}_{n_{l-1}-1}\\ \frac{\partial J}{\partial x^{(l)}_{1}}y^{(l-1)}_0 & \frac{\partial J}{\partial x^{(l)}_{1}}y^{(l-1)}_1 & \dots & \frac{\partial J}{\partial x^{(l)}_{1}}y^{(l-1)}_{n_{l-1}-1}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial J}{\partial x^{(l)}_{n_l-1}}y^{(l-1)}_0 & \frac{\partial J}{\partial x^{(l)}_{n_l-1}}y^{(l-1)}_1 & \dots & \frac{\partial J}{\partial x^{(l)}_{n_l-1}}y^{(l-1)}_{n_{l-1}-1} \end{array} \right]\\ &=\bm{\delta}^{(l)}(\bm{y}^{(l-1)})^T \end{aligned}.$
可见，某一层的损失函数关于权重的偏导数是当前层的 $\bm{\delta}^{(l)}$ 右乘当前层的输入向量的转置。注意这里当 $l = 0$ 的时候， $\bm{y}^{(l-1)}$ 应该取整个DNN的输入数据向量。 $\frac{\partial J}{\partial \bm{b}^{(l)}}$ 同样利用链式法则，发现其等于 $\bm{\delta}^{(l)}$ .

$\frac{\partial J}{\partial \bm{W}^{(l)}}=\bm{\delta}^{(l)}(\bm{y}^{(l-1)})^T$
$\frac{\partial J}{\partial \bm{b}^{(l)}}=\bm{\delta}^{(l)}$

3. CNN的后向传播算法

CNN和DNN在后向传播算法的推导上最大的区别在于：1.CNN基本是二维矩阵的计算（除了全连接层）；DNN基本是向量的计算。2.CNN含有DNN没有的卷积层和池化层。因此，下面从卷积和池化两个方面来说明CNN的后向传播算法。全连接层的后向传播算法与DNN完全相同。

3.1 池化层的后向传播

在这里插入图片描述
假设层 $l$ 是一个池化层，如上图。需要注意，他的前一层可能是不待激活函数的卷积层，虽然图中画了激活函数，但是可以认为该激活函数为 $\bm{y}^{(l-1)}=\sigma_{l-1}(\bm{x}^{(l-1)})=\bm{x}^{(l-1)}$ 。图中也标出了张量数据的大小，例如 $\bm{x}^{(l-1)}$ 含有 $c_{l-1}$ 个通道，每个通道上的特征图的大小为 $m_{l-1}\times n_{l-1}$ 。值得注意的是，对于池化层，池化前后通道数目不变，即 $c_l=c_{l-1}$ 。最常见的池化为最大池化和平均池化。类似于DNN中的符号，在CNN中我们也记 $\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}$ ，但是这里的 $\bm{x}^{(l)}$ 是高维张量。
考虑通道数目为1，即 $c_l=c_{l-1}=1$ ，并另 $m_{l-1}\times n_{l-1}=4\times 4$ 。设池化长度为 $2\times 2$ ，步长为2，则有 $m_{l}\times n_{l}=2\times 2$ 。下图显示了两种池化方案中，层 $l$ 的偏导数 $\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}$ 是如何后向传播得到 $\frac{\partial J}{\partial \bm{y}^{(l-1)}}$ 。对于平均池化，因为认为每个元素对于池化后的特征图的对应元素的贡献相等，因此 $\bm{\delta}^{(l)}$ 在反向传播的时候将平均分配到每个元素上。对于最大池化，认为只有最大的元素才对池化后的特征图对应元素有影响，因此反向传播时也只将 $\bm{\delta}^{(l)}$ 传播到原最大元素上。例如图中的b，池化后的特征图中(0,0)位置对应原特征图中的最大值的位置(0,1)，因此0.4只回传到原来的(0,0)位置；池化后的特征图中(1,1)位置对应原特征图中的最大值的位置(2,2)，因此0.6只回传到原来的(2,2)位置。
在这里插入图片描述
将上过程记为 $\frac{\partial J}{\partial \bm{y}^{(l-1)}}=unsample(\bm{\delta}^{(l)})$ 。为了得到 $\bm{\delta}^{(l-1)}$ ，还需要利用链式法则， $\bm{\delta}^{(l-1)}=\frac{\partial J}{\partial \bm{y}^{(l-1)}}\odot\sigma^{'}_{l-1}(\bm{x}^{(l-1)})=unsample(\bm{\delta}^{(l)})\odot\sigma^{'}_{l-1}(\bm{x}^{(l-1)})$ 。

3.2 卷积层的后向传播

$\bm{x}^{(l)}$ , $\bm{y}^{(l)}$ , $\bm{\delta}^{(l)}$ 均是3维张量，因此我们用下标 $(i, j, k)$ 表示第 $i$ 通道的特征图的在位置 $(i, j)$ 上的元素，例如 $\bm{x}^{(l)}_{i,j,k}$ 。此外， $\bm{x}^{(l)}_{i,:,:}$ 表示整个第 $i$ 通道的特征图，他是一个2维矩阵。 $\bm{x}^{(l)}_{i,:,k}$ 和 $\bm{x}^{(l)}_{i,j,:}$ 分别表示第 $i$ 通道的特征图的第 $k$ 列和第 $j$ 行构成的列向量和行向量。其他张量和 $\bm{x}$ 的表示一样。
在卷积层 $l$ 中，卷积后特征通道为 $j$ 的特征图需要与 $c_{l-1}$ 个输入特征图进行卷积，因此他的filter需要有 $c_{l-1}$ 卷积核和一个偏置。记这 $c_{l-1}$ 个卷积核为 $\bm{W}^{(l)}_{0,j},\bm{W}^{(l)}_{1,j},\dots,\bm{W}^{(l)}_{c_{l-1}-1,j}$ ，他们是2维矩阵，大小均为 $p_l\times p_l$ 。记这个偏置为 $b^{(l)}_i$ ，他是一个标量。
在一个卷积层中，有
$\bm{x}^{(l)}_{i,:,:}=\sum^{c_{l-1}-1}_{j=0}\bm{y}^{(l-1)}_{j,:,:}*\bm{W}^{(l)}_{i,j}+\bm{b}^{(l)}_{i},i=0,1,\dots,c_l-1.\tag{2}$
这里的 $\bm{b}^{(l)}_{i}$ 是大小与 $\bm{x}^{(l)}_{i,:,:}$ 相同( $m_l\times n_l$ )，且所有元素均为 $b^{(l)}_i$ 的矩阵。
由于卷积层的后向传播算法较为复杂，我们仍然按照讲DNN后向传播算法时的划分方法，先推导 $\bm{\delta}^{(l)}$ 的递推公式，然后推导如何由每一层的 $\bm{\delta}^{(l)}$ 求得对应的 $\frac{\partial J}{\partial \bm{W}^{(l)}}$ 和 $\frac{\partial J}{\partial \bm{b}^{(l)}}$ 。

3.2.1 卷积层的 $\bm{\delta}^{(l)}$ 递推公式

和DNN一样，最后一层的 $\bm{\delta}^{(L-1)}$ 可以容易求得（这里的最后一层是指最后一个卷积层），因此我们需要知道 $\bm{\delta}^{(l)}$ 到 $\bm{\delta}^{(l-1)}$ 的递推公式，以求得所有卷积层的 $\bm{\delta}^{(l)}$ 。
为了推导方便，我们将(2)中的矩阵形式进一步写成标量形式。我们这里只考虑卷积步长为1的情况。考虑矩阵 $\bm{x}^{(l)}_{i,:,:}$ 中的某个元素 $\bm{x}^{(l)}_{i,u,v}$ ，有 $0\leq u<m_l$ 和 $0\leq v<n_l$ 。对于该元素，卷积公式(2)变为
$x^{(l)}_{i,u,v}=\sum^{c_{l-1}-1}_{j=0}\sum^{p_l-1}_{u^{'}=0}\sum^{p_l-1}_{v^{'}=0}y^{(l-1)}_{j,u+u^{'},v+v^{'}}W^{(l)}_{i,j;u^{'},v^{'}}+b^{(l)}_i.\tag{3}$
现在要推导 $\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}$ 到 $\bm{\delta}^{(l-1)}=\frac{\partial J}{\partial \bm{x}^{(l-1)}}$ 的递推关系，我们先由上式推导 $\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}$ 到 $\frac{\partial J}{\partial \bm{y}^{(l-1)}}$ 的递推关系。

现在考虑某个输入通道 $j$ ， $\frac{\partial J}{\partial y^{(l-1)}_{j,:,:}}$ 在位置 $(u, v)$ 上的元素记为 $\frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}$ 。根据链式法则，我们需要求 $J$ 对所有包含 $y^{(l-1)}_{j,u,v}$ 的变量的偏导。因此有
$\frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}=\sum^{c_{l}-1}_{i=0}\sum_{(u^{'},v^{'})\in Q_i}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}\frac{\partial x^{(l)}_{i,u^{'},v^{'}}}{\partial y^{(l-1)}_{j,u,v}}.$
其中 $Q_i$ 是输出信道 $i$ 中，与 $y^{(l-1)}_{j,u,v}$ 有关的 $x^{(l)}_{i,u^{'},v^{'}}$ 的下标 $u^{'},v^{'})$ 的集合。(这里的"有关"指的是在卷积运算中的包含关系)实际上，有 $Q_0=Q_1=\dots=Q_{c_l-1}=Q$ 。因此重写上式为
$\frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}=\sum^{c_{l}-1}_{i=0}\sum_{(u^{'},v^{'})\in Q}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}\frac{\partial x^{(l)}_{i,u^{'},v^{'}}}{\partial y^{(l-1)}_{j,u,v}}.$

我们需要形象地表示出 $Q$ 所包含的坐标，因此下图给出一个大小为 $3\times 3$ 的卷积核的示例。左边的矩阵是被卷积矩阵，右边是卷积后的矩阵。考虑被卷积矩阵坐标为 $(u, v)$ 的元素，不难看出，卷积后的矩阵元素，涉及该元素运算的是图中坐标为 $(u - 2, v - 2)$ , $(u - 2, v)$ , $(u, v - 2)$ 和 $(u, v)$ 四个元素围成的矩形中的所有元素。记卷积后的特征图大小为 $m\times n$ ，则 $Q$ 可以表示为 $Q=\{(u^{'},v^{'}):u^{'}>=0,v^{'}>=0,u^{'}<m,v^{'}<n,u^{'}=u-2,u-1,\dots,u,v^{'}=v-2,v-1,\dots,v\}$ 。这里需要注意的是 $u^{'}$ 和 $v^{'}$ 均需要大于等于0，这是因为在卷积过程中，有些坐标是无效的。例如 $(u, v) = (1, 1)$ 的时候，左图的红色框和蓝色框其实是无法完成卷积的，实际上右图中没有横坐标为 $u - 2 = - 1$ 的元素。当然，对作图进行补零可以解决这个问题，但是我们这里的卷积没有补零。
在这里插入图片描述

有了以上对 $Q$ 的讨论，上面的式子变为
$\begin{aligned} \frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}&=\sum^{c_{l}-1}_{i=0}\sum^{u}_{u^{'}=u-p_l+1}\sum^{v}_{v^{'}=v-p_l+1}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}\frac{\partial x^{(l)}_{i,u^{'},v^{'}}}{\partial y^{(l-1)}_{j,u,v}}\\ &=\sum^{c_{l}-1}_{i=0}\sum^{u}_{u^{'}=u-p_l+1}\sum^{v}_{v^{'}=v-p_l+1}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}W^{(l)}_{i,j;u-u^{'},v-v^{'}}\\ &=\sum^{c_{l}-1}_{i=0}\sum^{u}_{u^{'}=u-p_l+1}\sum^{v}_{v^{'}=v-p_l+1}\delta^{(l)}_{i,u^{'},v^{'}}W^{(l)}_{i,j;u-u^{'},v-v^{'}},\\ &0\leq u^{'}<m_l,0\leq v^{'}<n_l.\tag{4} \end{aligned}$
为了对比方便，我们把(3)抄写如下
$x^{(l)}_{i,u,v}=\sum^{c_{l-1}-1}_{j=0}\sum^{p_l-1}_{u^{'}=0}\sum^{p_l-1}_{v^{'}=0}y^{(l-1)}_{j,u+u^{'},v+v^{'}}W^{(l)}_{i,j;u^{'},v^{'}}+b^{(l)}_i.\tag{3}$
(4)和(3)所表示的卷积有十分相似的结构。但是好像(4)式还是不能完全转化成(3)式所表示的卷积。现考虑一个新的卷积核，他是原卷积核
$\bm{W}^{(l)}_{i,j}= \left[ \begin{array}{cccc} W^{(l)}_{i,j;0,0}&W^{(l)}_{i,j;0,1}&\dots&W^{(l)}_{i,j;0,p_l-1}\\ W^{(l)}_{i,j;1,0}&W^{(l)}_{i,j;1,1}&\dots&W^{(l)}_{i,j;1,p_l-1}\\ \vdots&\vdots&\ddots&\vdots\\ W^{(l)}_{i,j;p_l-1,0}&W^{(l)}_{i,j;p_l-1,1}&\dots&W^{(l)}_{i,j;p_l-1,p_l-1} \end{array} \right].$
旋转180度得到的，记为
$rot_{180}(\bm{W})^{(l)}_{i,j}= \left[ \begin{array}{cccc} W^{(l)}_{i,j;p_l-1,p_l-1}&W^{(l)}_{i,j;p_l-1,p_l-2}&\dots&W^{(l)}_{i,j;p_l-1,0}\\ W^{(l)}_{i,j;p_2-2,p_l-1}&W^{(l)}_{i,j;p_l-2,p_l-2}&\dots&W^{(l)}_{i,j;p_l-2,0}\\ \vdots&\vdots&\ddots&\vdots\\ W^{(l)}_{i,j;0,p_l-1}&W^{(l)}_{i,j;0,p_l-2}&\dots&W^{(l)}_{i,j;0,0} \end{array} \right].$
他们的关系有 $rot_{180}(W)^{(l)}_{i,j;u,v}=W^{(l)}_{i,j;p_l-1-u,p_l-1-v}$ 。现在我们将(4)中的 $\bm{W}^{(l)}_{i,j}$ 用 $rot_{180}(\bm{W})^{(l)}_{i,j}$ 替代，有
$\frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}=\sum^{c_{l}-1}_{i=0}\sum^{u}_{u^{'}=u-p_l+1}\sum^{v}_{v^{'}=v-p_l+1}\delta^{(l)}_{i,u^{'},v^{'}}rot_{180}(W)^{(l)}_{i,j;p_l-1-u+u^{'},p_l-1-v+v^{'}},\\ 0\leq u^{'}<m_l,0\leq v^{'}<n_l.$
用 $u^{''}=p_l-1-u+u^{'}$ 和 $v^{''}=p_l-1-v+v^{'}$ 进行变量替换，有
$\frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}=\sum^{c_{l}-1}_{i=0}\sum^{p_l-1}_{u^{''}=0}\sum^{p_l-1}_{v^{''}=0}\delta^{(l)}_{i,u+u^{''}-p_l+1,v+v^{''}-p_l+1}rot_{180}(W)^{(l)}_{i,j;u^{''},v^{''}},\\ 0\leq u+u^{''}-p_l+1<m_l,0\leq v+v^{''}-p_l+1<n_l.\tag{5}$
(5)和(3)十分相似，但是并不能完全表示成(3)的样子，好像不是一个卷积运算，接下来我们将证明(5)表示的是补零的卷积运算。仍然考虑(3)所表示的卷积运算，但是忽略偏置。并且，对被卷积的图片进行补零，补零的行数和列数等于 $2(p_l-1)$ 。下图给出了一个例子，其中卷积核大小为 $3\times 3$ ，卷积前后的特征图大小均为 $5\times 5$ 。卷积运算之前，在特征图周围进行补零，补 $2\times(3-1)=4$ 行和 $2\times(3-1)=4$ 列的零。在这里插入图片描述
采用上述补零的卷积，并把上图中左边和右边的特征图分别用 $\bm{x}$ 和 $\bm{y}$ 表示，记 $\bm{x}$ 的大小为 $m_x\times n_x$ ， $\bm{y}$ 的大小为 $m_y\times n_y$ ，卷积核大小为 $p\times p$ ，于是有大小关系 $m_x=m_y-p+1$ 和 $n_x=n_y-p+1$ 。将上述卷积计算用类似于（3）的式子记为
$x_{u,v}=\sum^{p-1}_{u^{'}=0}\sum^{p-1}_{v^{'}=0}y_{u+u^{'}-p+1,v+v^{'}-p+1}W_{u^{'},v^{'}}.\tag{6}$
为了方便，上面的式子允许负坐标的存在，例如，作图中红框中9个元素的坐标如下
$\begin{array}{ccc} (-2,-2)&(-2,-1)&(-2,0)\\ (-1,-2)&(-1,-1)&(-1,0)\\ (0,-2)&(0,-1)&(0,0) \end{array}.$
为了去掉负坐标的存在，并去掉式子中的0元素，我们把(6)进一步改写为
$x_{u,v}=\sum^{p-1}_{u^{'}=0}\sum^{p-1}_{v^{'}=0}y_{u+u^{'}-p+1,v+v^{'}-p+1}W_{u^{'},v^{'}},\\ 0\leq u+u^{'}-p+1<m_y,\\ 0\leq v+v^{'}-p+1<n_y. \tag{7}$
为了对比明显，我们将(5)和(7)写在一起：

（5）	$\frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}=\sum^{c_{l}-1}_{i=0}\sum^{u}_{u^{'}=u-p_l+1}\sum^{v}_{v^{'}=v-p_l+1}\delta^{(l)}_{i,u^{'},v^{'}}rot_{180}(W)^{(l)}_{i,j;p_l-1-u+u^{'},p_l-1-v+v^{'}},0\leq u+u^{''}-p_l+1<m_l,0\leq v+v^{''}-p_l+1<n_l$
（7）	$x_{u,v}=\sum^{p-1}_{u^{'}=0}\sum^{p-1}_{v^{'}=0}y_{u+u^{'}-p+1,v+v^{'}-p+1}W_{u^{'},v^{'}},0\leq u+u^{'}-p+1<m_y,0\leq v+v^{'}-p+1<n_y$

显然，(5)是一个补零卷积在多通道上的表达式。我们把(5)重新记为
$\frac{\partial J}{\partial \bm{y}^{(l-1)}_{j}}=\sum^{c_{l}-1}_{i=0}padding(\bm{\delta})^{(l)}_{i}*rot_{180}(\bm{W})^{(l)}_{i,j}.\tag{8}$
其中， $padding(\bm{\delta})^{(l)}_{i}$ 是对矩阵 $\bm{\delta}^{(l)}_{i}$ 四周补上 $2(p_l-1)$ 行和 $2(p_l-1)$ 列零得到的补零矩阵， $rot_{180}(\bm{W})^{(l)}_{i,j}$ 是将 $\bm{W}^{(l)}_{i,j}$ 旋转180度得到的旋转卷积核。

在计算得到 $\frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}$ 之后，只需要乘上激活函数的导数计科得到 $\delta^{(l-1)}_{j,u,v}$ :
$\bm{\delta}^{(l-1)}_{j}=\frac{\partial J}{\partial \bm{y}^{(l-1)}_{j}}\odot \sigma^{'}_{l-1}(\bm{x}^{(l-1)}_{j}).$
因此对于通道 $j=0,1,\dots,c_{l-1}-1$ ， $\bm{\delta}^{(l)}_j$ 的递推关系是
$\bm{\delta}^{(l-1)}_{j}=\sum^{c_{l}-1}_{i=0}padding(\bm{\delta})^{(l)}_{i}*rot_{180}(\bm{W})^{(l)}_{i,j}\odot \sigma^{'}_{l-1}(\bm{x}^{(l-1)}_{j}).\tag{9}$

3.2.1 卷积层的 $\frac{\partial J}{\partial \bm{W}^{(l)}}$ 和 $\frac{\partial J}{\partial \bm{b}^{(l)}}$ 递推公式

通过上一节的递推公式，我们可以得到所有卷积层的 $\bm{\delta}^{(l-1)}$ ，本节介绍如何由 $\bm{\delta}^{(l-1)}$ 计算得到 $\frac{\partial J}{\partial \bm{W}^{(l)}}$ 和 $\frac{\partial J}{\partial \bm{b}^{(l)}}$ 。为了方便，重写式子(2)和（3）如下
$\bm{x}^{(l)}_{i,:,:}=\sum^{c_{l-1}-1}_{j=0}\bm{y}^{(l-1)}_{j,:,:}*\bm{W}^{(l)}_{i,j}+\bm{b}^{(l)}_{i},i=0,1,\dots,c_l-1.\tag{2}$
$x^{(l)}_{i,u,v}=\sum^{c_{l-1}-1}_{j=0}\sum^{p_l-1}_{u^{'}=0}\sum^{p_l-1}_{v^{'}=0}y^{(l-1)}_{j,u+u^{'},v+v^{'}}W^{(l)}_{i,j;u^{'},v^{'}}+b^{(l)}_i.\tag{3}$
因为 $\bm{W}^{(l)}_{i,j}$ 只是通道 $i$ 上 $\bm{x}^{(l)}_{i,:,:}$ 的变量，因此对于 $\bm{W}^{(l)}_{i,j}$ 上的某个元素 $W^{(l)}_{i,j;,u,v}$ ，利用链式法则，有
$\frac{\partial J}{\partial W^{(l)}_{i,j;u,v}}=\sum_{(u^{'},v^{'})\in Q_i}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}\frac{\partial x^{(l)}_{i,u^{'},v^{'}}}{\partial W^{(l)}_{i,j;u,v}}.$
这里的 $Q_i$ 指的是与 $W^{(l)}_{i,j;u,v}$ 有关的 $x^{(l)}_{i,u^{'},v^{'}}$ 的下标 $u^{'},v^{'})$ 的集合。不难看出，对于某个权重，所有的 $x^{(l)}_{i,u^{'},v^{'}}$ 均与之有关。所以上式变为
$\begin{aligned} \frac{\partial J}{\partial W^{(l)}_{i,j;u,v}}&=\sum^{m_l-1}_{u^{'}=0}\sum^{n_l-1}_{v^{'}=0}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}\frac{\partial x^{(l)}_{i,u^{'},v^{'}}}{\partial W^{(l)}_{i,j;u,v}}\\ &=\sum^{m_l-1}_{u^{'}=0}\sum^{n_l-1}_{v^{'}=0}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}y^{{(l-1)}}_{j,u+u^{'},v+v^{'}}\\ &=\sum^{m_l-1}_{u^{'}=0}\sum^{n_l-1}_{v^{'}=0}\delta^{(l)}_{i,u^{'},v^{'}}y^{{(l-1)}}_{j,u+u^{'},v+v^{'}}. \end{aligned}$
显然上式表示的是卷积关系，于是我们写成矩阵形式有
$\frac{\partial J}{\partial \bm{W}^{(l)}_{i,j}}=\bm{y}^{(l-1)}_{j,:,:}*\bm{\delta}^{(l)}_{i}.$
考虑某个通道 $i$ ，其偏置 $b^{(l)}_i$ 是一个标量，且所有 $x^{(l)}_{i,u^{'},v^{'}}$ 均与之有关，因此利用链式法则，有
$\begin{aligned} \frac{\partial J}{\partial b^{(l)}_{i}}&=\sum^{m_l-1}_{u^{'}=0}\sum^{n_l-1}_{v^{'}=0}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}\\ &=\sum^{m_l-1}_{u^{'}=0}\sum^{n_l-1}_{v^{'}=0}\delta^{(l)}_{i,u^{'},v^{'}}. \end{aligned}$

4. 总结与示例

4.1全连接层

递推公式	$\bm{\delta}^{(l-1)}=(\bm{W}^{(l)})^T\bm{\delta}^{(l)}\odot \sigma^{'}_{l-1}(\bm{x}^{(l-1)})$
权重偏导	$\frac{\partial J}{\partial \bm{W}^{(l)}}=\bm{\delta}^{(l)}(\bm{y}^{(l-1)})^T$
偏置偏导	$\frac{\partial J}{\partial \bm{b}^{(l)}}=\bm{\delta}^{(l)}$

考虑全连接层输入向量大小为 $6\times 1$ ，输出大小为 $3\times 1$ ，设权重矩阵为
$\bm{W}^{(l)}= \left[ \begin{array}{cccccc} 0.1&-0.2&0.3&0.2&-0.1&0.2\\ -0.7&0.4&0.1&-0.1&0.4&-0.5\\ 0.8&-0.9&0.3&0.1&-0.2&0.1 \end{array} \right],$
偏置向量为
$\bm{b}^{(l)}= \left[ \begin{array}{c} 0.2\\ 0.1\\ -0.5 \end{array} \right].$
前向传播表示为
$\bm{y}^{(l)}=\sigma_{l}(\bm{W}^{(l)}\bm{y}^{(l-1)}+\bm{b}^{(l)})=\sigma_{l}(\bm{x}^{(l)}).$
假设对于当前层，前向传播传来的是
$\bm{y}^{(l-1)}= \left[ \begin{array}{c} -0.2\\ 0.3\\ 0.1 \end{array} \right]，$
反向传播时输入的偏导数是
$\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}= \left[ \begin{array}{c} 0.1\\ -0.4\\ 0.2 \end{array} \right].$
则需要传到上一层的偏导数为
$\bm{\delta}^{(l-1)}= （\bm{W}^{(l)}）^T\bm{\delta}^{(l)}\odot \sigma^{'}_{l-1}(\bm{x}^{(l-1)})= \left[ \begin{array}{ccc} 0.1&-0.7&0.8\\ -0.2&0.4&-0.9\\ 0.3&0.1&0.3\\ 0.2&-0.1&0.1\\ -0.1&0.4&-0.2\\ 0.2&-0.5&0.1 \end{array} \right]\cdot \left[ \begin{array}{c} 0.1\\ -0.4\\ 0.2 \end{array} \right]\odot \sigma^{'}_{l-1} ( \bm{x}^{(l-1)} ).$
对于权重的偏导，有
$\frac{\partial J}{\partial \bm{W}^{(l)}}=\bm{\delta}^{(l)}(\bm{y}^{(l-1)})^T= \left[ \begin{array}{c} 0.1\\ -0.4\\ 0.2 \end{array} \right]\cdot \left[ \begin{array}{ccc} -0.2&0.3&0.1 \end{array} \right].$
对于偏置的偏导有
$\frac{\partial J}{\partial \bm{b}^{(l)}}=\bm{\delta}^{(l)}.$

4.2 卷积层

递推公式	$\bm{\delta}^{(l-1)}_{j}=\sum^{c_l-1}_{i=0}padding(\bm{\delta})^{(l)}_i*rot_{180}(\bm{W})^{(l)}_{i,j}\odot \sigma^{'}_{l-1}(\bm{x}^{(l-1)}_j)$
权重偏导	$\frac{\partial J}{\partial \bm{W}^{(l)}_{i,j}}=\bm{y}^{(l-1)}_{j,:}*\bm{\delta}^{(l)}_i$
偏置偏导	$\frac{\partial J}{\partial b^{(l)}_i}=\sum_{u,v}\bm{\delta}^{(l)}_{i,u,v}$