1.8讲道理——什么是反向传播？

原创已于 2025-10-18 20:42:28 修改 · 1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #神经网络 #人工智能

于 2025-10-18 20:40:12 首次发布

FCN--简单学全连接神经网络专栏收录该内容

13 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

一、反向传播基础概念

定义：反向传播是神经网络中用于计算参数梯度、进而通过优化器更新参数的核心算法，核心逻辑是“从输出层到输入层，沿前向传播的反方向传递误差，并计算各层参数对损失的梯度”。
核心作用：解决神经网络参数优化问题，通过梯度指引参数调整方向，使模型的损失函数值不断减小，最终提升模型预测精度。
前置知识：
- 链式法则：多变量函数求导的核心规则，反向传播中梯度的传递依赖链式法则逐层计算。
- 损失函数：用于衡量模型预测值与真实值的差异，如均方误差（MSE）、交叉熵损失等，是反向传播的“误差源头”。
- 神经网络基本结构：需明确输入层、隐藏层、输出层的神经元数量，以及各层使用的激活函数（如Sigmoid、ReLU）。

二、反向传播核心原理（三步法）

在这里插入图片描述

1. 第一步：前向传播（计算预测值与损失）

按“输入层→隐藏层→输出层”的顺序，计算每一层的输出值。
以单隐藏层网络为例，假设输入为 $x$ ，隐藏层权重为 $W_1$ 、偏置为 $b_1$ ，激活函数为 $σ\sigma$ ，输出层权重为 $W_2$ 、偏置为 $b_2$ ，则：
- 隐藏层输入： $z_1 = W_1x + b_1$
- 隐藏层输出： $a1=σ(z1)a_1 = \sigma(z_1)$
- 输出层输入： $z_2 = W_2a_1 + b_2$
- 模型预测值： $ypred=σ(z2)y_{pred} = \sigma(z_2)$ （若为回归任务，输出层可无激活函数）
计算损失：根据损失函数，对比 $y_{pred}$ 与真实标签 $y_{true}$ ，得到损失值 $L$ （如MSE损失 $\frac{1}{2}(y_{pred} - y_{true})^2$ ）。

2. 第二步：反向传播（计算各参数梯度）

从输出层开始，沿“输出层→隐藏层→输入层”的反方向，利用链式法则计算各参数（ $W_2$ 、 $b_2$ 、 $W_1$ 、 $b_1$ ）对损失 $L$ 的梯度。
关键梯度计算逻辑：
- 输出层参数梯度：先求损失对输出层输入 $z_2$ 的梯度（记为 $δ2=∂L∂z2\delta_2 = \frac{\partial L}{\partial z_2}$ ），再结合隐藏层输出 $a_1$ ，得到 $∂L∂W2=δ2⋅a1T\frac{\partial L}{\partial W_2} = \delta_2 \cdot a_1^T$ 、 $∂L∂b2=δ2\frac{\partial L}{\partial b_2} = \delta_2$ 。
- 隐藏层参数梯度：先将输出层的梯度 $δ2\delta_2$ 传递到隐藏层，得到损失对隐藏层输入 $z_1$ 的梯度（ $δ1=W2T⋅δ2⋅σ′(z1)\delta_1 = W_2^T \cdot \delta_2 \cdot \sigma'(z_1)$ ，其中 $σ′(z1)\sigma'(z_1)$ 是激活函数的导数），再结合输入 $x$ ，得到 $∂L∂W1=δ1⋅xT\frac{\partial L}{\partial W_1} = \delta_1 \cdot x^T$ 、 $∂L∂b1=δ1\frac{\partial L}{\partial b_1} = \delta_1$ 。

3. 第三步：参数更新（基于梯度优化）

利用计算出的参数梯度，结合优化器（如随机梯度下降SGD）更新参数，更新公式为： $Wnew=Wold−η⋅∂L∂WW_{new} = W_{old} - \eta \cdot \frac{\partial L}{\partial W}$ ， $bnew=bold−η⋅∂L∂bb_{new} = b_{old} - \eta \cdot \frac{\partial L}{\partial b}$ ，其中 $η\eta$ 是学习率（控制每步参数更新的幅度）。

三、具体计算案例（单隐藏层神经网络）

1. 案例设定

网络结构：输入层（1个神经元， $x = 1$ ）→ 隐藏层（2个神经元）→ 输出层（1个神经元）。
激活函数：全层使用Sigmoid函数（ $σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}}$ ，导数 $σ′(z)=σ(z)(1−σ(z))\sigma'(z) = \sigma(z)(1-\sigma(z))$ ）。
初始参数： $W1=[0.10.20.30.4]W_1 = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix}$ ， $b1=[0.50.6]b_1 = \begin{bmatrix} 0.5 \\ 0.6 \end{bmatrix}$ ； $W2=[0.70.8]W_2 = \begin{bmatrix} 0.7 & 0.8 \end{bmatrix}$ ， $b_2 = 0.9$ 。
真实标签： $y_{true} = 0.5$ 。

2. 第一步：前向传播计算

隐藏层输入： $z1=W1x+b1=[0.1×1+0.50.3×1+0.6]=[0.60.9]z_1 = W_1x + b_1 = \begin{bmatrix} 0.1×1 + 0.5 \\ 0.3×1 + 0.6 \end{bmatrix} = \begin{bmatrix} 0.6 \\ 0.9 \end{bmatrix}$
隐藏层输出： $a1=σ(z1)=[11+e−0.6≈0.645711+e−0.9≈0.7109]a_1 = \sigma(z_1) = \begin{bmatrix} \frac{1}{1+e^{-0.6}} ≈ 0.6457 \\ \frac{1}{1+e^{-0.9}} ≈ 0.7109 \end{bmatrix}$
输出层输入： $z_2 = W_2a_1 + b_2 = 0.7×0.6457 + 0.8×0.7109 + 0.9 ≈ 0.452 + 0.5687 + 0.9 ≈ 1.9207$
预测值： $ypred=σ(z2)≈11+e−1.9207≈0.8707y_{pred} = \sigma(z_2) ≈ \frac{1}{1+e^{-1.9207}} ≈ 0.8707$
损失值（MSE）： $\frac{1}{2}(0.8707 - 0.5)^2 ≈ \frac{1}{2}×0.1374 ≈ 0.0687$

3. 第二步：反向传播计算梯度

计算输出层梯度（ $δ2\delta_2$ ）：
- $δ2=∂L∂z2=(ypred−ytrue)⋅σ′(z2)\delta_2 = \frac{\partial L}{\partial z_2} = (y_{pred} - y_{true}) \cdot \sigma'(z_2)$ 。
- $σ′(z2)=0.8707×(1−0.8707)≈0.1126\sigma'(z_2) = 0.8707×(1-0.8707) ≈ 0.1126$ 。
- $δ2=(0.8707−0.5)×0.1126≈0.3707×0.1126≈0.0417\delta_2 = (0.8707 - 0.5)×0.1126 ≈ 0.3707×0.1126 ≈ 0.0417$ 。
计算输出层参数梯度：
- $∂L∂W2=δ2⋅a1T≈0.0417×[0.64570.7109]≈[0.02690.0296]\frac{\partial L}{\partial W_2} = \delta_2 \cdot a_1^T ≈ 0.0417×\begin{bmatrix} 0.6457 & 0.7109 \end{bmatrix} ≈ \begin{bmatrix} 0.0269 & 0.0296 \end{bmatrix}$ 。
- $∂L∂b2=δ2≈0.0417\frac{\partial L}{\partial b_2} = \delta_2 ≈ 0.0417$ 。
计算隐藏层梯度（ $δ1\delta_1$ ）：
- $δ1=W2T⋅δ2⋅σ′(z1)\delta_1 = W_2^T \cdot \delta_2 \cdot \sigma'(z_1)$
- $σ′(z1)=[0.6457×(1−0.6457)≈0.22810.7109×(1−0.7109)≈0.2055]\sigma'(z_1) = \begin{bmatrix} 0.6457×(1-0.6457) ≈ 0.2281 \\ 0.7109×(1-0.7109) ≈ 0.2055 \end{bmatrix}$
- $W2T⋅δ2=[0.7×0.04170.8×0.0417]≈[0.02920.0334]W_2^T \cdot \delta_2 = \begin{bmatrix} 0.7×0.0417 \\ 0.8×0.0417 \end{bmatrix} ≈ \begin{bmatrix} 0.0292 \\ 0.0334 \end{bmatrix}$
- $δ1=[0.0292×0.2281≈0.00670.0334×0.2055≈0.0069]\delta_1 = \begin{bmatrix} 0.0292×0.2281 ≈ 0.0067 \\ 0.0334×0.2055 ≈ 0.0069 \end{bmatrix}$
计算隐藏层参数梯度：
- $∂L∂W1=δ1⋅xT≈[0.0067×10.0069×1]=[0.00670.0069]\frac{\partial L}{\partial W_1} = \delta_1 \cdot x^T ≈ \begin{bmatrix} 0.0067×1 \\ 0.0069×1 \end{bmatrix} = \begin{bmatrix} 0.0067 \\ 0.0069 \end{bmatrix}$ （因 $x$ 为1维，结果维度与 $W_1$ 一致）
- $∂L∂b1=δ1≈[0.00670.0069]\frac{\partial L}{\partial b_1} = \delta_1 ≈ \begin{bmatrix} 0.0067 \\ 0.0069 \end{bmatrix}$

4. 第三步：参数更新（学习率 $η=0.1\eta=0.1$ ）

$W2new=W2−η⋅∂L∂W2≈[0.7−0.1×0.02690.8−0.1×0.0296]≈[0.69730.7970]W_2^{new} = W_2 - \eta \cdot \frac{\partial L}{\partial W_2} ≈ \begin{bmatrix} 0.7 - 0.1×0.0269 & 0.8 - 0.1×0.0296 \end{bmatrix} ≈ \begin{bmatrix} 0.6973 & 0.7970 \end{bmatrix}$
$b_2^{new} = 0.9 - 0.1×0.0417 ≈ 0.8958$
$W1new=W1−η⋅∂L∂W1≈[0.1−0.1×0.00670.2−0.1×0.00670.3−0.1×0.00690.4−0.1×0.0069]≈[0.09930.19930.29930.3993]W_1^{new} = W_1 - \eta \cdot \frac{\partial L}{\partial W_1} ≈ \begin{bmatrix} 0.1 - 0.1×0.0067 & 0.2 - 0.1×0.0067 \\ 0.3 - 0.1×0.0069 & 0.4 - 0.1×0.0069 \end{bmatrix} ≈ \begin{bmatrix} 0.0993 & 0.1993 \\ 0.2993 & 0.3993 \end{bmatrix}$
$b1new=[0.5−0.1×0.00670.6−0.1×0.0069]≈[0.49930.5993]b_1^{new} = \begin{bmatrix} 0.5 - 0.1×0.0067 \\ 0.6 - 0.1×0.0069 \end{bmatrix} ≈ \begin{bmatrix} 0.4993 \\ 0.5993 \end{bmatrix}$

四、PyTorch框架下的反向传播实现（对应视频实战）

1. 核心逻辑

PyTorch通过“动态计算图”自动实现反向传播，无需手动计算梯度，只需定义网络结构、损失函数，调用loss.backward()即可自动求导。

2. 代码示例（对应案例网络）

import torch
import torch.nn as nn
import torch.optim as optim

# 1. 定义网络结构（单隐藏层）
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.hidden = nn.Linear(1, 2)  # 输入1维→隐藏层2维（W1, b1）
        self.output = nn.Linear(2, 1)  # 隐藏层2维→输出1维（W2, b2）
        self.sigmoid = nn.Sigmoid()    # Sigmoid激活函数

    def forward(self, x):
        # 前向传播：x → 隐藏层 → Sigmoid → 输出层 → Sigmoid
        x = self.hidden(x)
        x = self.sigmoid(x)
        x = self.output(x)
        x = self.sigmoid(x)
        return x

# 2. 初始化模型、损失函数、优化器
model = SimpleNN()
# 手动设置初始参数（与案例一致）
model.hidden.weight.data = torch.tensor([[0.1, 0.3], [0.2, 0.4]]).T  # PyTorch中Linear权重维度为（输出维，输入维）
model.hidden.bias.data = torch.tensor([0.5, 0.6])
model.output.weight.data = torch.tensor([[0.7, 0.8]])
model.output.bias.data = torch.tensor([0.9])

criterion = nn.MSELoss()  # 均方误差损失
optimizer = optim.SGD(model.parameters(), lr=0.1)  # SGD优化器，学习率0.1

# 3. 前向传播
x = torch.tensor([[1.0]])  # 输入（批量维度，1个样本）
y_true = torch.tensor([[0.5]])  # 真实标签
y_pred = model(x)  # 预测值
loss = criterion(y_pred, y_true)  # 计算损失

# 4. 反向传播与参数更新
optimizer.zero_grad()  # 清空之前的梯度（避免累积）
loss.backward()        # 自动计算所有参数的梯度（对应手动计算的梯度）
optimizer.step()       # 根据梯度更新参数（对应手动参数更新）

# 5. 打印结果
print("预测值：", y_pred.item())
print("损失值：", loss.item())
print("更新后输出层权重：", model.output.weight.data)

3. 框架优势对比

手动计算：需逐层推导梯度公式，易出错，仅适用于简单网络。
PyTorch自动求导：无需关注梯度计算细节，支持复杂网络（如卷积神经网络），且梯度计算高效、准确。

五、常见问题与注意事项

梯度消失/爆炸：
- 原因：激活函数（如Sigmoid）在输入值过大/过小时导数接近0，导致梯度传递到浅层时趋近于0（梯度消失）；或网络参数初始值过大，导致梯度逐层放大（梯度爆炸）。
- 解决方法：使用ReLU等梯度不易消失的激活函数、采用 Xavier/He 等参数初始化方法、使用批量归一化（Batch Normalization）。
梯度累积：PyTorch中若未调用optimizer.zero_grad()，梯度会累积到上一次的梯度值上，导致参数更新错误，需每次反向传播前清空梯度。
学习率选择：学习率过大会导致参数震荡不收敛，过小则参数更新缓慢，需根据任务调整（如初始用0.1，后续逐步减小）。