反向传播（Backpropagation）

最新推荐文章于 2024-10-30 10:54:54 发布

原创最新推荐文章于 2024-10-30 10:54:54 发布 · 403 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

13 篇文章

订阅专栏

本文深入探讨了反向传播算法的原理，详细解释了链式法则在求解损失函数对权重偏导数中的应用，通过逐步分解复杂的网络结构，简化了梯度计算过程。

前言

由于个人理解能力有限，我看了好几遍李宏毅老师的推导才大致理解，如有错误之处恳请指正。

梯度与传播的关系

前面已经使用泰勒展开推导过损失函数值沿变量梯度的反方向下降最快的结论，考虑如下的网络结构
在这里插入图片描述
其中 $x_n$ 代表输入的特征， $w_n$ 代表权重， $b$ 代表偏置， $z=wx_1+wx_2+b$ ， $z$ 作为激活函数 $σ(z)\sigma(z)$ 的参数。
此时的目的是得到损失函数 $L$ 对每个 $w_i$ 的偏导（损失函数是针对整个模型来说的）。
$L$ 对 $w_1$ 的偏导并不那么好求，首先， $L$ 是所有样本损失函数（也就是所有样本交叉熵 $C$ ）的集合，因此这里考虑单个样本交叉熵 $C$ 对所有 $w_i$ 的偏导。
在这里插入图片描述
拿 $w_1$ 举例：从后往前看， $l$ 包含 $σ(z′)\sigma(z^{\prime})$ 和 $σ(z′′)\sigma(z^{\prime\prime})$ ， $σ(z′)\sigma(z^{\prime})$ 和 $σ(z′′)\sigma(z^{\prime\prime})$ 包含 $z′z^{\prime}$ 和 $z′′z^{\prime\prime}$ ， $z′z^{\prime}$ 和 $z′′z^{\prime\prime}$ 包含 $σ(z)\sigma(z)$ ， $σ(z)\sigma(z)$ 包含 $z$ ， $z$ 包含 $w_1$ …
感觉好复杂，不过也可以因此联想到高数学习的链式法则—— $g (f (x))$ 对 $x$ 积分等于 $f′(x)g′(f(x))f^{\prime}(x)g^{\prime}(f(x))$ .

链式法则（chain rule）

链式法则是反向传播算法的关键，通过链式法则，可以化繁为简，最终求得 $∂C∂w1\frac{\partial C}{\partial w_{1}}$ ，下图是链式法则的精髓所在：
在这里插入图片描述

反向传播的推导

假设有中间层如下
在这里插入图片描述
则可以根据链式法则求得 $∂C/∂w1\partial C/\partial w_{1}$ ，从左向右（输入向输出）一点点看，首先：
$\frac{\partial C}{\partial w_{1}}=\frac{\partial C}{\partial z} \frac{\partial z}{\partial w_{1}}$
由于 $z=w_1x_1+w_2x_2+b$ ，因此 $∂z/∂w1=x1\partial z / \partial w_{1}=x_1$ ，下面求 $∂C/∂z\partial C/\partial z$ ：
$\frac{\partial C}{\partial z}=\frac{\partial C}{\partial a} \frac{\partial a}{\partial z}$
由于 $a=σ(z)a=\sigma(z)$ ，因此 $∂σ(z)/∂z=σ′(z)\partial \sigma(z)/\partial z=\sigma^{\prime}(z)$ ，下面求 $∂C/∂a\partial C/\partial a$
回过头看链式法则的case 2， $C$ 由 $a$ 发射出两条路汇成，因此：

$\frac{\partial C}{\partial a}=\frac{\partial C}{\partial z^{\prime}} \frac{\partial z^{\prime}}{\partial a}+\frac{\partial C}{\partial z^{\prime\prime}} \frac{\partial z^{\prime \prime}}{\partial a}$
而 $∂z′/∂a=w3\partial z^{\prime}/\partial a=w_3$ ， $∂z′′/∂a=w4\partial z^{\prime\prime}/\partial a=w_4$ ，因此上面可以变为：

$\frac{\partial C}{\partial a}=w_3\frac{\partial C}{\partial z^{\prime}} +w_4\frac{\partial C}{\partial z^{\prime\prime}}$

那么对于每一层，对照下图，便有：
$\frac{\partial C}{\partial z}=\sigma^{\prime}(z)\left[w_{3} \frac{\partial C}{\partial z^{\prime}}+w_{4} \frac{\partial C}{\partial z^{\prime \prime}}\right]$
在这里插入图片描述
如果 $z′z^{\prime}$ 后面便对应着输出 $y_1$ ， $z′′z^{\prime\prime}$ 后面便对应着 $y_2$ ，那么显然：
$\frac{\partial C}{\partial z^{\prime}}=\frac{\partial y_{1}}{\partial z^{\prime}} \frac{\partial C}{\partial y_{1}} \quad且\quad \frac{\partial C}{\partial z^{\prime \prime}}=\frac{\partial y_{2}}{\partial z^{\prime \prime}} \frac{\partial C}{\partial y_{2}}$
在这里插入图片描述
此时由于 $y_1$ 与 $y_2$ 已知，很容易便可以算出上式。

如果 $a′a^{\prime}$ 和 $a′′a^{\prime\prime}$ 后面还对应结点，则将 $a′a^{\prime}$ 和 $a′′a^{\prime\prime}$ 作为输入，递归的进行上面的步骤直到输出层。
反向计算会使得很大程度上降低时间复杂度，对于 $\frac{\partial C}{\partial w_{}}=\frac{\partial C}{\partial z} \frac{\partial z}{\partial w_{}}$ 可以前向计算每个结点的值作为 $∂z/∂w\partial z/\partial w$ ，通过反向传播计算 $∂C/∂z\partial C/\partial z$ （计算公式在上面），二者相乘即为损失函数 $C$ 对所有 $w$ 进行偏微分的集合。
在这里插入图片描述