反向传播算法（BP算法）

最新推荐文章于 2024-12-20 10:00:00 发布

Siannodel_

最新推荐文章于 2024-12-20 10:00:00 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：神经网络算法

本文链接：https://blog.youkuaiyun.com/qq826309057/article/details/73010834

版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了反向传播（BP）算法在神经网络中的应用，阐述了BP算法的基本方程及其推导过程，并详细描述了算法的执行流程，包括前向传播和反向误差传播，为神经网络的训练提供了关键的梯度计算方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

BP 算法是迄今最成功的神经网络学习算法，现实任务中使用神经网络时，大多是在使用 BP 算法进行训练。BP 算法允许来自代价函数的信息通过网络向后流动，以便计算梯度。

反向传播的四个基本方程及推导

定义

这里写图片描述

在接下来的公式中：
$w_{jk}^l$ 表示从 $(l-1)^{th}$ 层的 $k^{th}$ 个神经元到 $l^{th}$ 层的 $j^{th}$ 个神经元的链接上的权重。
$a_j^l$ 表示 $l^{th}$ 层第 $j^{th}$ 个神经元的激活值。
$b_j^l$ 表示在 $l^{th}$ 层第 $j^{th}$ 个神经元的偏置。
$C$ 表示代价函数。
$L$ 表示输出层。
有了上面的表示，我们可以将两个相邻层之间的激活值通过方程关联起来：

z l j = \sum k w l j k a l - 1 k + b l j a l j = σ (z l j)

$z_j^l=\sum_kw_{jk}^la_k^{l-1}+b_j^l\\ a_j^l=\sigma(z_j^l)$
其中

σ() $\sigma()$ 为激励函数。
上面两个公式的向量化形式：

z l = w l a l - 1 + b l a l = σ (z l)

$z^l=w^la^{l-1}+b^l\\a^l=\sigma(z^l)$
关于代价函数的两个假设：
1. 代价函数可以被写成一个在每个训练样本

x $x$ 上的代价函数

Cx $C_x$ 的均值

C=1n∑xCx $C=\frac{1}{n} \sum_xC_x$ 。
2. 代价可以写成神经网络输出的函数

cost C=C(aL) $cost\ C=C(a^L)$ 。

最后，定义 $l$ 层的第 $j^{th}$ 个神经元上的误差 $\delta_j^l$ 为：

δ l j \equiv \partial C \partial z l j

$\delta_j^l \equiv \frac{\partial C}{\partial z_j^l}$
反向传播其实是对权重和偏置变化影响代价函数过程的理解。最终极的含义其实就是计算偏导数

∂C∂wljk $\frac{\partial C}{\partial w_{jk}^l}$ 和

∂C∂blj $\frac{\partial C}{\partial b_{j}^l}$ 。为了计算这些值，我们首先引入了一个中间量

∂lj $\partial_j^l$ ，这个我们称为在

lth $l^{th}$ 层第

jth $j^{th}$ 个神经元上的误差。
反向传播将给出计算误差

δ $\delta$ 的流程，然后将其关联到计算

∂C∂wljk $\frac{\partial C}{\partial w_{jk}^l}$ 和

∂C∂blj $\frac{\partial C}{\partial b_{j}^l}$ 上。

四个方程式

我们先直接给出四个基本方程，然后给出推导的过程。

δ L = \nabla a C ⊙ σ' (z l) (B P 1) δ l = ((w l + 1) T δ l + 1) ⊙ σ' (z l) (B P 2) \partial C \partial b l j = δ l j (B P 3) \partial C \partial w l j k = a l - 1 k δ l j (B P 4)

$\begin{aligned} \delta^L=\nabla_aC\odot\sigma'(z^l) \qquad\qquad(BP1)\\ \delta^l=((w^{l+1})^T\delta^{l+1})\odot\sigma'(z^l)\qquad\qquad(BP2)\\ \frac{\partial C}{\partial b_{j}^l}=\delta_j^l\qquad\qquad(BP3)\\ \frac{\partial C}{\partial w_{jk}^l}=a_k^{l-1}\delta_j^l\qquad\qquad(BP4) \end{aligned}$
其中，

⊙ $\odot$ 运算符表示矩阵对应元素相乘。

四个基本方程的推导

BP1:
已知定义 $\delta_j^L = \frac{\partial C}{\partial z_j^L}$ ，应用链式法则，得：

δ L j = \partial C \partial a L j \partial a L j \partial z L j

$\delta_j^L =\frac{\partial C}{\partial a_j^L}\frac{\partial a_j^L}{\partial z_j^L}$
由

aLj=σ(zLj) $a_j^L=\sigma(z_j^L)$ 得：

δ L j = \partial C \partial a L j σ' (z L j)

$\delta_j^L=\frac{\partial C}{\partial a_j^L}\sigma'(z_j^L)$
这就是 (BP1) 的分量形式。
BP2:

δ = \partial C \partial z l j = \sum k \partial C \partial z l + 1 k \partial z l + 1 k \partial z l j = \sum k \partial z l + 1 k \partial z l j δ l + 1 k

$\begin{aligned} \delta &= \frac{\partial C}{\partial z_j^l} \\ &=\sum_k\frac{\partial C}{\partial z_k^{l+1}}\frac{\partial z_k^{l+1}}{\partial z_j^l} \\ &=\sum_k\frac{\partial z_k^{l+1}}{\partial z_j^l}\delta_k^{l+1} \end{aligned}$
因为 (注意

wl+1kj $w_{kj}^{l+1}$ 表示的意义，

k,j $k,j$ 都是表示一层网路的第几个神经元，重要的是符号的位置)：

z l + 1 k = \sum j w l + 1 k j a l j + b l + 1 k = \sum j w l + 1 k j σ (z l j) + b l + 1 k

$\begin{aligned} z_k^{l+1}&=\sum_jw_{kj}^{l+1}a_j^l+b_k^{l+1} \\ &=\sum_jw_{kj}^{l+1}\sigma(z_j^l)+b_k^{l+1} \end{aligned}$
做微分，得：

\partial z l + 1 k \partial z l j = w l + 1 k j σ' (z l j)

$\frac{\partial z_k^{l+1}}{\partial z_j^l}= w_{kj}^{l+1}\sigma'(z_j^l)$
把他带入上式，得：

δ l j = \sum k w l + 1 k j δ l + 1 k σ' (z l j)

$\delta_j^l=\sum_kw_{kj}^{l+1}\delta_k^{l+1}\sigma'(z_j^l)$
这就是（BP2）的分量形式。
BP3：

δ l j = \partial C \partial z l j = \partial C \partial b l j \partial b l j \partial z l j

$\begin{aligned} \delta_j^l&=\frac{\partial C}{\partial z_j^l} \\ &=\frac{\partial C}{\partial b_j^l}\frac{\partial b_j^l}{\partial z_j^l} \end{aligned}$
由

zlj=∑kwljkal−1k+blj $z_j^{l}=\sum_kw_{jk}^{l}a_k^{l-1}+b_j^{l}$ 得：

\partial b l j \partial z l j = 1

$\frac{\partial b_j^l}{\partial z_j^l}=1$
因此：

\partial C \partial b l j = δ l j

$\frac{\partial C}{\partial b_j^l}=\delta_j^l$
BP4:

\partial C \partial w l j k = \partial C \partial z l j \partial z l j \partial w l j k

$\begin{aligned} \frac{\partial C}{\partial w_{jk}^l}=\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial w_{jk}^l} \end{aligned}$
由

zlj=∑kwljkal−1k+blj $z_j^l=\sum_kw_{jk}^la_k^{l-1}+b_j^l$ 得：

\partial z l j \partial w l j k = a l - 1 k

$\frac{\partial z_j^l}{\partial w_{jk}^l}=a_k^{l-1}$
因此：

\partial C \partial w l j k = a l - 1 k δ l j

$\frac{\partial C}{\partial w_{jk}^l}=a_k^{l-1}\delta_j^l$

反向传播算法流程

输入 $x$ ：为输入层设置对应的激活值 $a^1$
前向传播：对每个 $l=2,3,\ldots,L$ 计算相应的 $z^l=w^la^{l-1}+b^l$ 和 $a^l=\sigma(z^l)$
输出层误差 $\delta^L$ ：计算向量 $\delta^L = \nabla_aC\cdot\sigma'(z^L)$
反向误差传播：对每个 $l=L-1,L-2,\ldots,2,$ 计算 $\delta^l=((w^{l+1})^T\delta^{l+1})\cdot\sigma'(z^l)$
输出：代价函数的梯度由 $\frac{\partial C}{\partial w_{jk}^l}=a_k^{l-1}\delta_j^l$ 和 $\frac{\partial C}{\partial b_j^l}=\delta_j^l$ 得出