反向传播（BP）算法到底传播了个啥？

最新推荐文章于 2024-10-30 10:54:54 发布

TracelessLe

最新推荐文章于 2024-10-30 10:54:54 发布

阅读量2.8k

点赞数 2

分类专栏： # 深度学习原理文章标签：深度学习神经网络反向传播

本文为原创文章，独家发布在blog.youkuaiyun.com/TracelessLe。未经个人允许不得转载。如需帮助请email至tracelessle@163.com。

本文链接：https://blog.youkuaiyun.com/TracelessLe/article/details/106431977

版权

深度学习原理专栏收录该内容

19 篇文章

订阅专栏

反向传播算法 BackPropagation ，简称BP算法。常用于训练多层神经网络，那么它到底传播了个啥？又是怎么传播的呢？

我们知道，对于一个机器学习算法，其最终预测出的值与实际值一般会存在差异，那么我们定义这个差异为误差E。算法中有若干参数需要学习，那么怎么学习呢？以什么策略去变化参数，使得预测值更接近真实值呢？

这就是采用BP算法的初衷，我们知道预测值是由所有参数与相连的输入运算后得到的，也就是说预测值与真实值之间的误差E其实是与每个参数相关的，可以认为误差是由每个参数造成的，因此我们试图将误差进行反向传播，计算每个参数引起的误差大小，以此为依据来更新参数，使得重新进行前向传播计算出的预测值越来越接近真实值，由此起到训练的作用。

从西瓜书中摘取示例网络的图片来计算BP的过程：

注：该图示中输入层在最下面，输出层在最上面。我们可能更习惯输入层在左侧，输出层在右侧。如下图所示。

给定以上含一层隐层的神经网络，有 𝑑 个输入神经元、𝑞 个隐层神经元、𝑙个输出神经元。
给定：
训练集 $D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),..., (x_{m},y_{m})\right \},x_{i}\in \mathbb{R}^{d},y_{i}\in \mathbb{R}^{l}$ ，即输入由 𝑑 个属性描述（𝑑 个𝑥），输出 𝑙 维实值向量（𝑙个𝑦）。
其中：
输出层第 𝑗 个神经元的阈值（偏置）用 $\theta _{j}$ 表示，
隐层第 ℎ 个神经元的阈值用 $\gamma _{h}$ 表示。
输入层第 𝑖 个神经元与隐层第 ℎ 个神经元之间的连接权重为 $v_{ih}$ ，
隐层第 ℎ 个神经元与输出层第 𝑗 个神经元之间的连接权重为 $w_{ih}$ 。
记隐层第 ℎ 个神经元接收到的输入为 $\alpha _{h}=\sum_{i=1}^{d}v_{ih}x_{i}$ ，
输出层第 𝑗 个神经元接收到的输入为 $\beta _{j}=\sum_{h=1}^{q}w_{hj}b_{h}$ ，
其中 $b_{h}$ 为隐层第 ℎ 个神经元的输出，即 $b_{h}=f\left ( \alpha _{h}-\gamma _{h} \right )$ 。
假设隐层和输出层的激活函数为Sigmoid函数（注：Sigmoid函数求导特性良好，见公式6）。

对训练集 $x_{k}, y_{k})$ ，假定神经网络的输出为 $\hat y_{k}=\left (\hat y_{1}^{k}, \hat y_{2}^{k}, ..., \hat y_{l}^{k} \right )$
即：
$\hat y_{l}^{k}=f\left ( \beta _{j}-\theta _{j} \right )\tag{1}$
则网络在 $x_{k}, y_{k})$ 上的均方误差为 $E_{k}=\frac{1}{2}\sum_{j=1}^{l}\left ( \hat y_{j}^{k}- y_{j}^{k} \right )^{2}\tag{2}$
（注：加 $\frac{1}{2}$ 是为了约掉平方求导得到的2。）

网络中需要更新的参数个数为 $\left ( d+l+1 \right )q+l$ 个：输入层到隐层的 $d\times q$ 个权值、隐层到输出层的 $q\times l$ 个权值、 𝑞 个隐层神经元的阈值， 𝑙 个输出层神经元的阈值。

BP是一个迭代学习算法，在迭代的每一轮中，采用广义的感知机学习规则对参数进行更新估计。

对任意参数 𝑣 的更新公式为 $v\leftarrow v+\Delta v$ ，

BP算法基于梯度下降策略，以目标的负梯度方向对参数进行调整，对式子（2）的 $E_{k}$ ，给定学习率 𝜂 ，有

$\Delta w_{hj}=-\eta \frac{\partial E_{k}}{\partial w_{hj}}\tag{3}$

注意到， $w_{hj}$ 先影响到第 𝑗 个输出层神经元的输入值 $\beta _{j}$ ，再影响到其输出值 $\hat y_{j}^{k}$ ，然后影响到 $E_{k}$ ，有

$\frac{\partial E_{k}}{\partial w_{hj}}=\frac{\partial E_{k}}{\partial \hat y_{j}^{k}}\cdot \frac{\partial \hat y_{j}^{k}}{\partial \beta _{j}}\cdot \frac{\partial \beta _{j}}{\partial w_{hj}}\tag{4}$

根据 $\beta _{j}$ 定义，有：

$b_{h}= \frac{\partial \beta _{j}}{\partial w_{hj}}\tag{5}$

Sigmoid函数的导数为：

${f}'\left ( x \right )=f\left ( x \right )\left ( 1-f\left ( x \right ) \right ) \tag{6}$

于是根据式子（1）和（2），取出式（4）中的前两项并取负后设为 $g_{j}$ （注：此处设为 $g_{j}$ 是为了后面继续往前一层求导时复用此结果值，见式12第三行），有

$\begin{aligned}g_{j} &=-\frac{\partial E_{k}}{\partial \hat y_{j}^{k}}\cdot \frac{\partial \hat y_{j}^{k}}{\partial \beta _{j}}\\ &=-\left ( \hat y_{j}^{k}- y_{j}^{k}\right )\cdot{f}'\left ( \beta _{j}-\theta _{j} \right )\\ &=\left ( y_{j}^{k} -\hat y_{j}^{k}\right ) \cdot\hat y_{j}^{k}\left ( 1- \hat y_{j}^{k}\right ) \\&=\hat y_{j}^{k}\left ( 1- \hat y_{j}^{k}\right )\left ( y_{j}^{k} -\hat y_{j}^{k}\right ) \end{aligned} \tag{7}$
将式（5）、（7）代入式子（4），再代入式（3）得到BP算法中关于 $w_{hj}$ 的更新公式：

$\Delta w_{hj}=\eta g_{j}b_{h}\tag{8}$

根据 $\hat y_{l}^{k}=f\left ( \beta _{j}-\theta _{j} \right )$ 可以看出偏置 $\theta _{j}$ 更新公式的计算方法与 $w_{hj}$ 类似，只需要特别注意相比 $\Delta w_{hj}$ 的式子（8）少了 $b_{h}$ 而多了一个负号（ $f(\beta _{j}-\theta _{j})$ 中的 $-\theta _{j}$ ），即：
$\Delta \theta _{j}=-\eta g_{j}\tag{9}$
又有：
$\Delta v _{ih}=-\eta \frac{\partial E_{k}}{\partial v _{ih}}\tag{10}$
其中：
$\begin{aligned} \frac{\partial E_{k}}{\partial v _{ih}}&=\sum_{j=1}^{l}(\frac{\partial E_{k}}{\partial \hat y_{j}^{k}}\cdot \frac{\partial \hat y_{j}^{k}}{\partial \beta _{j}}\cdot \frac{\partial \beta _{j}}{\partial b_{h}})\cdot \frac{\partial b_{h}}{\partial \alpha_{h}}\cdot \frac{\partial \alpha _{h}}{\partial v _{ih}} \\ &=\sum_{j=1}^{l}(\frac{\partial E_{k}}{\partial \beta _{j}}\cdot \frac{\partial \beta _{j}}{\partial b_{h}})\cdot \frac{\partial b_{h}}{\partial \alpha_{h}}\cdot \frac{\partial \alpha _{h}}{\partial v _{ih}} \\&=\sum_{j=1}^{l}(-g_{j}\cdot w_{hj})\cdot{f}'\left ( \alpha _{h}-\gamma _{h} \right )\cdot \frac{\partial \alpha _{h}}{\partial v _{ih}} \\&=-\sum_{j=1}^{l}(w_{hj}g_{j})\cdot b_{h}\left ( 1- b_{h}\right )\cdot x_{i} \end{aligned}\tag{11}$

注： $\sum_{j=1}^{l}$ 是因为输出层的各个元素都与 $b_{h}$ 相连，需要综合影响。这也是式子（7）中设 $g_{j}$ 的原因，保存中间值，加速上一层的计算，避免重复计算。另外， $\frac{\partial b_{h}}{\partial \alpha_{h}}={f}'\left ( \alpha _{h}-\gamma _{h} \right )=b_{h}\left ( 1- b_{h}\right)$

将式子（11）中的部分值抽出来设为：
$\begin{aligned}e_{h} =b_{h}\left ( 1- b_{h}\right )\sum_{j=1}^{l}w_{hj}g_{j}\end{aligned}\tag{12}$
则得到 $\Delta v _{ih}$ ：
$\Delta v _{ih}=\eta e_{h}x_{i}\tag{13}$
同理得到，
$\Delta \gamma _{h}=-\eta e_{h} \tag{14}$