【机器学习03】神经网络的反向传播梯度函数求解

原创已于 2025-03-26 20:44:36 修改 · 2.3k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #神经网络 #人工智能

于 2025-03-26 20:38:07 首次发布

机器学习探索笔记 | 从理论到实践专栏收录该内容

35 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

【机器学习03】神经网络的反向传播梯度函数求解

神经网络的反向传播（Backpropagation）是一种通过计算损失函数梯度来调整网络权重的算法，是训练深度学习模型的核心方法。以下是其关键步骤和原理的清晰总结：
在这里插入图片描述

1. 网络结构

在这里插入图片描述

单隐藏层神经网络：输入层 → 隐藏层（2个神经元） → 输出层
参数初始化：
- 权重：w₁=1.0, w₂=0.5, w₃=0.5, w₄=0.7, w₅=1.0, w₆=2.0
- 输入：x₁=0.5, x₂=1.0
- 真实值：y=0.8
- 学习率：η=0.1

2. 正向传播过程

隐藏层计算

$\begin{aligned} h_1^{(1)} &= w_1x_1 + w_2x_2 = 1.0×0.5 + 0.5×1.0 = 1.0 \\ h_2^{(1)} &= w_3x_1 + w_4x_2 = 0.5×0.5 + 0.7×1.0 = 0.95 \end{aligned}$

输出层计算

$y' = w_5h_1^{(1)} + w_6h_2^{(1)} = 1.0×1.0 + 2.0×0.95 = 2.9$

损失计算

采用均方误差：
$\frac{1}{2}(y-y')^2 = 0.5×(0.8-2.9)^2 = 2.205$

3. 反向传播过程

输出层梯度

$\frac{∂δ}{∂y'} =\frac{∂(\frac{1}{2}(y-y')^2)}{∂y'} = (y-y ')*(-1)= (0.8-2.9)*(-1) = 2.1$

权重更新（以w₅为例）

计算梯度：
w₅的梯度
$\frac{∂δ}{∂w_5} = \frac{∂δ}{∂y'}·\frac{∂y'}{∂w_5} = 2.1×1.0 = 2.1$

$w_5^{update} = w_5 - η·\frac{∂δ}{∂w_5} = 1.0 - 0.1×2.1 = 0.79$
其中
$\frac{∂y'}{∂w_5} = \frac{∂}{∂w_5}(w_5h_1^{(1)} + w_6h_2^{(1)})$
$h_1^{(1)} +0$
$= 1.0$
同理 $w_1$ 的梯度为

$\frac{\partial \delta}{\partial w_1} = \frac{\partial \delta}{\partial y'} \cdot \frac{\partial y'}{\partial h_1^{(1)}} \cdot \frac{\partial h_1^{(1)}}{\partial w_1} = 2.1 \times 1.0 \times 0.5 = 1.05$

$w_1^{\text{update}} = w_1 - \eta \cdot \frac{\partial \delta}{\partial w_1} = 1.0 - 0.1 \times 1.05 = 0.895$
其中
$\frac{\partial y'}{\partial h_1^{(1)}} = w_5 = 1.0$
$\frac{\partial h_1^{(1)}}{\partial w_1} = x_1 = 0.5$

4. 关键公式总结

计算步骤	公式
神经元输出	$\sum w_ix_i$
损失函数	$\frac{1}{2}(y-y')^2$
输出层梯度	$\frac{∂δ}{∂y'} = y'-y$
权重梯度	$\frac{∂δ}{∂w_i} = \frac{∂δ}{∂y'}·\frac{∂h_i}{∂w_i}$
参数更新	$w_{update} = w - η·\frac{∂δ}{∂w}$

以下是图片演示

第一次正向传播

在这里插入图片描述

在这里插入图片描述
正向传播完成

反向传播

在这里插入图片描述
$w_5^{(update)}$

$w_1^{(update)}$

所有权重w

第二次正向传播

在这里插入图片描述

至此，便完成了所有参数的更新；
结合前面的图文讲解，整个前向传播和反向传播，应该已经非常清楚了
有几点要再说明下：
1.这个case重点是在讲解清楚，正向传播和方向传播，为了举例说明中的计算方便，没有给每个神经元加上激活函数；
2.在实际使用的神经网络中，每个神经元在上文计算的基础上，会再通过一个激活函数，才能得到最后的值；
3.然后求导的时候，要再结合激活函数的形式求导；但整个流程没有任何区别；
4.网上很多内容会说，反向传播就是链式求导，然后就没了；我相信在这个教程里，一定已经把这个过程完全讲清楚了；
5.神经网络里，面试还会问，什么是梯度消失梯度爆炸，以及为什么，和如何解决；这些知识点如果大家感兴趣，也可以留言，以后安排；