关于反向传播

最新推荐文章于 2022-10-01 15:51:43 发布

羊藤枝

最新推荐文章于 2022-10-01 15:51:43 发布

阅读量254

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/qq_30614451/article/details/93615186

深度学习同时被 2 个专栏收录

18 篇文章

订阅专栏

机器学习

9 篇文章

订阅专栏

本文的 $θ\theta$ 和 $w$ 都表示权重， $σ\sigma$ 、 $hΘh_{\Theta}$ 和 $g$ 都表示激活函数。

神经网络的代价函数：

$\begin{aligned} J(\Theta)=&-\frac{1}{m}\left[\sum_{i=1}^{m} \sum_{k=1}^{K} y_{k}^{(i)} \log \left(h_{\Theta}\left(x^{(i)}\right)\right)_{k}+\left(1-y_{k}^{(i)}\right) \log \left(1-\left(h_{\Theta}\left(x^{(i)}\right)\right)_{k}\right)\right] \\ &+\frac{\lambda}{2 m} \sum_{l=1}^{L-1} \sum_{i=1}^{s_{l}} \sum_{j=1}^{s_{l+1}}\left(\Theta_{j i}^{(l)}\right)^{2} \end{aligned}$

目标：

$\min _{\Theta} J(\Theta)$

需要计算：

$J(\Theta)$

$\frac{\partial}{\partial \Theta_{i j}^{(l)}} J(\Theta)$

假设只有一个训练样本（x，y），

神经网络结构如图：

在这里插入图片描述

它的前向传播过程如下：
$\begin{array}{l}{a^{(1)}=x} \\ {z^{(2)}=\Theta^{(1)} a^{(1)}} \\ {a^{(2)}=g\left(z^{(2)}\right)\left(\text { add } a_{0}^{(2)}\right)} \\ {z^{(3)}=\Theta^{(2)} a^{(2)}} \\ {a^{(3)}=g\left(z^{(3)}\right)\left(\text { add } a_{0}^{(3)}\right)} \\ {z^{(4)}=\Theta^{(3)} a^{(3)}} \\ {a^{(4)}=h_{\Theta}(x)=g\left(z^{(4)}\right)}\end{array}$

反向传播

$δj(l)\delta_{j}^{(l)}$ 表示L层j节点处的误差。
对上述一个4层的网络，
反向传播过程中，误差沿着反向传播如下，（公式推导见附录）：
$\delta_{j}^{(4)}=a_{j}^{(4)}-y_{j}$

$\begin{array}{l}{\delta^{(3)}=\left(\Theta^{(3)}\right)^{T} \delta^{(4)} \cdot * g^{\prime}\left(z^{(3)}\right)} \\ {\delta^{(2)}=\left(\Theta^{(2)}\right)^{T} \delta^{(3)} \cdot * g^{\prime}\left(z^{(2)}\right)}\end{array}$

其中， $g′(z)=a⋅∗(1−a)g^{\prime}\left(z^{}\right)=a^{} \cdot *\left(1-a^{}\right)$
表示sigmoid函数的导数。

这里的 $δj(l)\delta_{j}^{(l)}$ 其实就是代价函数对 $z_{j}^{(l)}$ 的偏导，可以对代价函数公式求偏导即可得证。
$δj(l)=∂∂zj(l)cost⁡(i)\delta_{j}^{(l)}=\frac{\partial}{\partial z_{j}^{(l)}} \operatorname{cost}(\mathrm{i})$
其中，单个样品的代价函数表示如下：
$cost⁡(i)=y(i)log⁡hΘ(x(i))+(1−y(i))log⁡hΘ(x(i))\operatorname{cost}(\mathrm{i})=y^{(i)} \log h_{\Theta}\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log h_{\Theta}\left(x^{(i)}\right)$
其中， $hΘ(x(i))=ah_{\Theta}\left(x^{(i)}\right)=a$ ，表示每一层的输出， $hΘh_{\Theta}$ 就是sigmoid激活函数，与前文的g()一样。

误差函数对权重 $θij(l)\theta_{i j}^{(l)}$ 的导数如下：
$\frac{{\partial}}{{\partial} \theta_{i j}^{(l)}} J(\Theta)=a_{j}^{(l)} \delta_{i}^{(l+1)}$

这个式子忽略正则项， $λ\lambda$ 为0.

对多个样本如何进行反向传播算法？

对训练集 ${(x(1),y(1)),…,(x(m),y(m))}\left\{\left(x^{(1)}, y^{(1)}\right), \ldots,\left(x^{(m)}, y^{(m)}\right)\right\}$ ，
训练过程如下：
首先，置 $l,i,j)\triangle_{i j}^{(l)}=0(\text { for all } l, i, j)$

接着，遍历训练集：

For $i = 1$ to $m$
{
令 $a^{(1)}=x^{(i)}$
通过前向传播计算 $a^{(l)}$ for $\ldots, L$
使用 $y^{(i)},$ 计算误差 $δ(L)=a(L)−y(i)\delta^{(L)}=a^{(L)}-y^{(i)}$
通过反向传播计算每一层的误差， $δ(L−1),δ(L−2),…,δ(2)\delta^{(L-1)}, \delta^{(L-2)}, \ldots, \delta^{(2)}$
$△ij(l):=△ij(l)+aj(l)δi(l+1)\triangle_{i j}^{(l)} :=\triangle_{i j}^{(l)}+a_{j}^{(l)} \delta_{i}^{(l+1)}$
}
计算完之后，跳出循环，计算下式：
$\begin{array}{ll}{D_{i j}^{(l)} :=\frac{1}{m} \triangle_{i j}^{(l)}+\lambda \Theta_{i j}^{(l)} \text { if } j \neq 0} \\ {D_{i j}^{(l)} :=\frac{1}{m} \triangle_{i j}^{(l)}} & {\text { if } j=0}\end{array}$
就可以得到偏导数：
$\frac{\partial}{\partial \Theta_{i j}^{(l)}} J(\Theta)=D_{i j}^{(l)}$

参考自：吴恩达机器学习视频

下面整理一下反向传播的过程：

第一步：输入训练集；

第二步：对于训练集中的每个样本x，设置输入层（Input layer）对应的激活值 $a^{1}$ ：

第三步：前向传播：

$zl=wlal−1+bl,al=σ(zl)z^{l}=w^{l} a^{l-1}+b^{l}, a^{l}=\sigma\left(z^{l}\right)$

第四步: 计算输出层产生的错误：

$δL=∇aC⊙σ′(zL)\delta^{L}=\nabla_{a} C \odot \sigma^{\prime}\left(z^{L}\right)$
也可以表示为： $δL=aj−yj\delta^{L}=a_{j}-y_{j}$

第五步: 反向传播计算每一层的错误：

$δl=((wl+1)Tδl+1)⊙σ′(zl)\delta^{l}=\left(\left(w^{l+1}\right)^{T} \delta^{l+1}\right) \odot \sigma^{\prime}\left(z^{l}\right)$

第六步: 使用梯度下降（gradient descent），训练参数：

$wl→wl−ηm∑xδx,l(ax,l−1)Tw^{l} \rightarrow w^{l}-\frac{\eta}{m} \sum_{x} \delta^{x, l}\left(a^{x, l-1}\right)^{T}$
$bl→bl−ηm∑xδx,lb^{l} \rightarrow b^{l}-\frac{\eta}{m} \sum_{x} \delta^{x, l}$

附录

符号说明：
$w_{j k}^{l}$ 表示第l-1层的第k个神经元连接到第l层的第j个神经元之间的权重；
$b_{j}^{l}$ 表示第l层的第j个神经元的偏置；
$z_{j}^{l}$ 表示第l层的第j个神经元的输入，即：
$zjl=∑kwjklakl−1+bjlz_{j}^{l}=\sum_{k} w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}$
$a_{j}^{l}$ 表示第l层第j个神经元的输出，即：
$ajl=σ(∑kwjklakl−1+bjl)a_{j}^{l}=\sigma\left(\sum_{k} w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}\right)$
$σ\sigma$ 表示激活函数。（本文激活函数用不同的符号都表示过，但其实是一样的，从很多地方整理而来，懒得去改了）
$⊙\odot$ 表示Hadamard乘积，用于矩阵或向量之间点对点的乘法运算.

误差的推导：

$δl=((wl+1)Tδl+1)⊙σ′(zl)\delta^{l}=\left(\left(w^{l+1}\right)^{T} \delta^{l+1}\right) \odot \sigma^{\prime}\left(z^{l}\right)$
推导过程：
$∵δjl=∂C∂zjl=∑k∂C∂zkl+1⋅∂zkl+1∂ajl⋅∂ajl∂zjl\because \delta_{j}^{l}=\frac{\partial C}{\partial z_{j}^{l}}=\sum_{k} \frac{\partial C}{\partial z_{k}^{l+1}} \cdot \frac{\partial z_{k}^{l+1}}{\partial a_{j}^{l}} \cdot \frac{\partial a_{j}^{l}}{\partial z_{j}^{l}}$
$=∑kδkl+1⋅∂(wkjl+1ajl+bkl+1)∂ajl⋅σ′(zjl)=\sum_{k} \delta_{k}^{l+1} \cdot \frac{\partial\left(w_{k j}^{l+1} a_{j}^{l}+b_{k}^{l+1}\right)}{\partial a_{j}^{l}} \cdot \sigma^{\prime}\left(z_{j}^{l}\right)$
$=∑kδkl+1⋅wkjl+1⋅σ′(zjl)=\sum_{k} \delta_{k}^{l+1} \cdot w_{k j}^{l+1} \cdot \sigma^{\prime}\left(z_{j}^{l}\right)$
$∴δl=((wl+1)Tδl+1)⊙σ′(zl)\therefore \delta^{l}=\left(\left(w^{l+1}\right)^{T} \delta^{l+1}\right) \odot \sigma^{\prime}\left(z^{l}\right)$

权重导数的推导：

$∂C∂wjkl=akl−1δjl\frac{\partial C}{\partial w_{j k}^{l}}=a_{k}^{l-1} \delta_{j}^{l}$
推导过程：
$∂C∂wjkl=∂C∂zjl⋅∂zjl∂wjkl=δjl⋅∂(wjklakl−1+bjl)∂wjkl=akl−1δjl\frac{\partial C}{\partial w_{j k}^{l}}=\frac{\partial C}{\partial z_{j}^{l}} \cdot \frac{\partial z_{j}^{l}}{\partial w_{j k}^{l}}=\delta_{j}^{l} \cdot \frac{\partial\left(w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}\right)}{\partial w_{j k}^{l}}=a_{k}^{l-1} \delta_{j}^{l}$

偏置导数的推导：

$∂C∂bjl=δjl\frac{\partial C}{\partial b_{j}^{l}}=\delta_{j}^{l}$
推导过程：
$∂C∂bjl=∂C∂zjl⋅∂zjl∂bjl=δjl⋅∂(wjklakl−1+bjl)∂bjl=δjl\frac{\partial C}{\partial b_{j}^{l}}=\frac{\partial C}{\partial z_{j}^{l}} \cdot \frac{\partial z_{j}^{l}}{\partial b_{j}^{l}}=\delta_{j}^{l} \cdot \frac{\partial\left(w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}\right)}{\partial b_{j}^{l}}=\delta_{j}^{l}$