机器学习算法 —— 反向传播

最新推荐文章于 2025-11-03 22:06:14 发布

原创最新推荐文章于 2025-11-03 22:06:14 发布 · 2k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了反向传播算法及其在神经网络中的应用，包括梯度的概念、梯度下降法的工作原理以及如何通过链式求导更新神经网络中的权重。

一、简介

反向传播算法，也叫BP（Backpropagation）算法，是一种在神经网络中用于根据误差更新各层连接权重的算法，其核心为梯度下降。

二、理论

（1）梯度

在二元函数的情形，设函数 ${f(x,y)}$ 在平面区域 ${D}$ 内具有一阶连续偏导数，则对于每一点 $P0(x0,y0)∈D{P_0(x_0,y_0)\in{D}}$ ，都可定出一个向量
${f_x(x_0,y_0)\mathbf{i}+f_y(x_0,y_0)\mathbf{j}},$ 这向量称为函数 ${f(x,y)}$ 在点 ${P_0(x_0,y_0)}$ 的梯度，记作 $gradf(x0,y0){\mathbf{grad}f(x_0,y_0)}$ 或 $∇f(x0,y0){\nabla{f(x_0,y_0)}}$ ，即
${\mathbf{grad}f(x_0,y_0)=\nabla{f(x_0,y_0)}=f_x(x_0,y_0)\mathbf{i}+f_y(x_0,y_0)\mathbf{j}}.$

这是同济版高等数学教材中对梯度的定义。根据梯度的定义我们可以看出梯度是一个向量，在 ${k}$ 维空间中（ $k≥3{k\ge3}$ ），函数某一点的梯度可以理解为在该点对其中 ${k-1}$ 维求偏导所得的 ${k-1}$ 个一维向量（即切线）的向量和。由此可知，函数在某点的梯度方向即为函数值增长最快的方向。

（2）梯度下降

梯度下降（Gradient Descent）是一种常用的最优化算法，其思想是通过不断迭代，使初始解不断逼近最优解，而其核心就是梯度。
在（1）中我们得出，函数在某点的梯度方向即为函数值增长最快的方向，所以梯度的反方向就是函数值减少最快的方向。在机器学习领域，我们常用梯度下降法优化损失函数的参数，使损失函数达到最小值，优化的依据就是梯度。
梯度下降法的核心可用如下公式表示：
${\theta_1=\theta_0-\alpha\nabla{F(\theta_0)}}$ 其中 $θ0{\theta_0}$ 为原参数， $θ1{\theta_1}$ 为更新后的参数， $∇F(θ0){\nabla{F(\theta_0)}}$ 为函数在 $θ0{\theta_0}$ 处的梯度， $α{\alpha}$ 为学习率或步长，意为参数沿梯度方向“走多远”。使用梯度下降法即不断重复这一过程，当误差小于给定阈值后停止迭代，得到近似最优解。
不难看出，这里的 $α{\alpha}$ 为超参数。 $α{\alpha}$ 的取值不宜过大也不宜过小，若过大则在更新时可能跳过最优解，若过小则会导致收敛过慢。
若待优化函数为凸函数，则使用梯度下降法总能得到全局最优解；若为非凸函数，则可能到达局部最优解。
本文中介绍梯度下降的只是最原始的形式，还有很多种梯度下降的优化算法，如SGD、Adam等，这里不再详细介绍。

（3）反向传播

当我们使用神经网络近似目标函数时通常使用反向传播算法，根据输出层的输出与真实值的误差更新各层间的权重。
假设一个单隐藏层神经网络，记 $wjki{w^i_{jk}}$ 为第 ${i}$ 层的第 ${j}$ 个神经元与第 ${i+1}$ 层的第 ${k}$ 个神经元间的权重，记输入矩阵为 ${X^i}$ ，偏置矩阵为 ${B^i}$ ，输出矩阵为 ${Y^i}$ ，激活后的输出矩阵为 ${Z^i}$ ，假设激活函数为 ${sigmoid}$ ，则
${Y^i=W^iX^i+B^i},$ ${Z^i=sigmoid(Y^i)},$ ${X^{i+1}=Z^i}.$ 实际上，我们使用梯度下降法近似的目标函数，是关于 ${Z^3}$ 的损失函数 ${L(Z^3)}$ ，而 ${Z^3}$ 又是 ${Y^3}$ 的函数， ${Y^3}$ 又是 ${W^3}$ 的函数，所以通过不断在梯度的反方向上更新 ${W}$ ，使损失函数达到最小值。
当有多个输出神经元时，由于每一个输出神经元的值都与其上一层的所有神经元有权重连接，且这些权重有大有小，所以我们将 ${L(Z^3)}$ 的值按比例分配给其上一层的每个神经元。接下来以两个输出神经元的情况为例。
记真实值为 ${R}$ ，令
${L(Z^3)=\frac{1}{2}\sum(R-Z^3)^2},$ 则 $w112{w^2_{11}}$ 分得的权重为
${l^2_1=l^2_{11}+l^2_{12}=\frac{w^2_{11}}{\sum^{n}_{j=1}{w^2_{j1}}}\cdot{\frac{1}{2}(r_1-z^3_1)^2}+\frac{w^2_{12}}{\sum^{n}_{j=1}{w^2_{j1}}}\cdot{\frac{1}{2}(r_2-z^3_2)^2}},$ 所以当我们更新 $w112{w^2_{11}}$ 时，根据（2）中的公式得
$w112^=w112−α∂l12∂w112, {\hat{w^2_{11}}=w^2_{11}-\alpha\frac{\partial{l^2_1}}{\partial{w^2_{11}}}},$ 其中
${\frac{\partial{l^2_1}}{\partial{w^2_{11}}}=\frac{\partial{l^2_1}}{\partial{Z^2}}\cdot\frac{\partial{Z^2}}{\partial{Y^2}}\cdot\frac{\partial{Y^2}}{\partial{w^2_{11}}}=-(R-Z^2)\cdot sigmoid(Y^2)\cdot(1-sigmoid(Y^2))\cdot X^2}.$ 其余各层同理。