台大李宏毅Machine Learning 2017Fall学习笔记 (8)Backpropagation

最新推荐文章于 2025-10-23 16:10:46 发布

原创最新推荐文章于 2025-10-23 16:10:46 发布 · 1.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #machine-learning #deep-learning #李宏毅

台大李宏毅Machine Learning 2017Fall 专栏收录该内容

16 篇文章

订阅专栏

本文详细介绍了反向传播算法的工作原理及其在复杂网络结构中的应用。通过手写数字识别的例子，解释了如何通过前向传播和反向传播计算梯度，并更新权重。

台大李宏毅Machine Learning 2017Fall学习笔记 (8)Backpropagation

当网络结构很复杂时，会有大量的参数。 $\nabla L(\theta)$ 是百万维的向量。如何高效地计算百万维的参数，使用反向传播算法来计算。BP并非是一个和GD不同的训练方法，BP就是GD，只是是一种比较有效率的计算方法。
这里写图片描述
数学知识铺垫：微积分中的链式法则，很简单。

还是以上节中手写数字识别为例。

$x^n$ 是一张输入图片， $y^n$ 是网络的输出 $label$ 向量， $\hat y^n$ 是该图片的真值 $label$ 向量。 $C^n$ 是输出值和真实值的交叉熵损失。定义 $L(\theta)$ 为损失函数。

L (θ) = \sum n = 1 N C n (θ)

$L(\theta)=\sum_{n=1}^NC^n(\theta)$
损失函数对参数的导数为：

\partial L ( θ ) \partial w = \sum n = 1 N \partial C n ( θ ) \partial w

$\frac{\partial L(\theta)}{\partial w}=\sum_{n=1}^N\frac{\partial C^n(\theta)}{\partial w}$
如下图所示：

∂C∂w=∂z∂w∂C∂z $\frac{\partial C}{\partial w}=\frac{\partial z}{\partial w}\frac{\partial C}{\partial z}$ ，

Backpropagation $Backpropagation$ 算法分为两个过程。
这里写图片描述

Forward pass

首先计算前向传播中的 $\frac{\partial z}{\partial w}$ 。以上图为例。

\partial z \partial w 1 = x 1

$\frac{\partial z}{\partial w_1}=x_1$

\partial z \partial w 2 = x 2

$\frac{\partial z}{\partial w_2}=x_2$
显然这一步比较简单，某一参数的微分值就是其对应的输入值。注意要把所有

∂z∂w $\frac{\partial z}{\partial w}$ 的值计算出来。

Backward pass

然后计算反向传播中损失函数对于激活函数输入值的偏微分 $\frac{\partial C}{\partial z}$ 。
如下图中所示： $\frac{\partial C}{\partial z}=\frac{\partial a}{\partial z}\frac{\partial C}{\partial a}$ ， $\frac{\partial a}{\partial z}=\sigma'(z)$ 。
这里写图片描述
利用链式法则计算 $\frac{\partial C}{\partial a}$ .

稍微整理一下，成为下图这样。

下图中很形象地展示了反向传播的概念， $\sigma'(z)$ 类似模拟电路中的放大器。

最后一步是计算 $\frac{\partial C}{\partial z'}$ 和 $\frac{\partial C}{\partial z''}$ 。这分两种情况：1) $z'$ 和 $z''$ 的下一层是输出层；2) $z'$ 和 $z''$ 的下一层不是输出层。
$Case1:$ 输出层
这里写图片描述
$Case2:$ 非输出层
不断地递归计算 $\frac{\partial C}{\partial z}$ ，直至输出层，如下图。

注意：在backward pass过程中也需要对所有的 $z$ ，计算出 $\frac{\partial C}{\partial z}$ .