深度学习梯度下降与交叉熵损失

最新推荐文章于 2025-09-14 16:24:10 发布

原创最新推荐文章于 2025-09-14 16:24:10 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

在深度学习的训练过程中，有两个概念如同模型的“大脑”与“双腿”：**梯度下降（Gradient Descent）**负责规划优化的方向，**交叉熵损失（Cross-Entropy Loss）**则定义了“正确”的标准。本文将从原理到实践，带你拆解这对“黄金搭档”如何共同推动模型从随机猜测走向精准预测。

一、梯度下降：从“下山”到模型优化的智慧

1.1 一个直观的类比：寻找山谷的最低点

想象你站在一片未知的山脉中，目标是找到海拔最低的山谷。你每走一步，都需要判断“当前位置是否比周围更低”，并通过调整方向（东、南、西、北）逐步逼近最低点。这正是梯度下降的核心思想——通过计算“当前位置的梯度（即最陡峭的下降方向）”，沿着该方向迈出一步（学习率控制步长），最终到达损失函数的最低点。

1.2 数学视角：从损失函数到参数更新

在深度学习中，模型的目标是最小化损失函数 $L(θ)L(\theta)$ （ $θ\theta$ 是模型参数，如权重矩阵和偏置）。梯度下降的数学表达式为：
$\theta_{\text{new}} = \theta_{\text{old}} - \eta \cdot \nabla L(\theta_{\text{old}})$
其中：

$∇L(θold)\nabla L(\theta_{\text{old}})$ 是损失函数在 $θold\theta_{\text{old}}$ 处的梯度（指向损失增长最快的方向，因此取负号表示“下降”）；
$η\eta$ 是学习率（Learning Rate），控制每一步的步长。

关键问题：为什么梯度方向是最陡峭的下降方向？
梯度的定义是损失函数对参数的偏导数组成的向量，其方向是函数值增长最快的方向。因此，负梯度方向自然是函数值下降最快的方向。这一步的数学推导可通过泰勒展开证明（此处略），但直观上可以理解为“局部线性近似”下的最优选择。

1.3 梯度下降的三种“行走方式”

根据每次迭代使用的训练数据量，梯度下降分为三类：

批量梯度下降（Batch GD）：每次用全部训练数据计算梯度。优点是梯度方向准确，缺点是计算成本高（尤其当数据量达百万级时）。
随机梯度下降（SGD）：每次用单个样本计算梯度。优点是计算快、能跳出局部极小值，缺点是梯度波动大（噪声高）。
小批量梯度下降（Mini-batch GD）：折中方案，每次用 $\sim 1024$ 个样本计算梯度。现代深度学习几乎全用此方法——兼顾计算效率与梯度稳定性。

二、交叉熵损失：分类任务的“真理度量仪”

2.1 从信息论到分类目标：为什么是交叉熵？

在分类任务中（如判断图片是猫还是狗），模型的输出是“预测概率”（如“猫的概率 0.8，狗的概率 0.2”），而真实标签是“确定的结果”（如“猫的概率 1.0，狗的概率 0.0”）。我们需要一个指标来衡量“预测概率”与“真实概率”的差异——这就是交叉熵的用武之地。

信息论中，交叉熵 $H (p, q)$ 衡量两个概率分布 $p$ （真实分布）和 $q$ （预测分布）的差异，公式为：
$-\sum_{x} p(x) \log q(x)$

在分类任务中，真实分布 $p$ 是“one-hot 分布”（仅真实类别概率为 1，其余为 0），预测分布 $q$ 是模型输出的各类别概率（通过 softmax 函数归一化得到）。此时，交叉熵损失简化为：
$-\log q(y_{\text{true}})$
其中 $ytruey_{\text{true}}$ 是真实类别的索引（如猫对应索引 0）。

2.2 为什么交叉熵比 MSE 更适合分类？

许多新手会疑惑：均方误差（MSE， $\frac{1}{2}\sum (y_{\text{true}} - q(y))^2$ ）也能衡量差异，为什么不直接用它？

关键区别在于梯度特性。假设模型输出 logits 为 $z$ （未归一化的分数），通过 softmax 得到 $\frac{e^{z}}{e^{z_{\text{true}}} + \sum_{k \neq \text{true}} e^{z_k}}$ 。

交叉熵的梯度：对 $z$ 求导后，梯度为 $y_{\text{true}}$ （简洁直接，反映预测误差）。
MSE 的梯度：对 $z$ 求导后，梯度包含 $q (y) (1 - q (y))$ 项（当 $q (y)$ 接近 0 或 1 时，梯度趋近于 0，导致“梯度消失”，模型训练停滞）。

因此，交叉熵损失能更高效地驱动模型更新，避免梯度消失问题。

2.3 从“最大似然估计”到交叉熵：理论根基

分类任务的目标等价于“最大化训练数据的似然函数”。假设样本独立同分布，似然函数为：
$L(\theta) = \prod_{i=1}^N P(y_i | x_i; \theta)$

取对数后（对数似然），最大化似然等价于最小化负对数似然（NLL）：
$\text{NLL}(\theta) = -\sum_{i=1}^N \log P(y_i | x_i; \theta)$

而交叉熵损失 $L$ 与负对数似然 完全等价（当模型输出通过 softmax 转换为概率时）。因此，最小化交叉熵损失本质是在“拟合数据的真实分布”，这是分类任务的底层逻辑。

三、梯度下降 × 交叉熵损失：模型训练的“双引擎”

3.1 训练流程：从数据到参数的闭环

深度学习的一次完整训练迭代（Iteration）包含以下步骤，梯度下降与交叉熵损失在此紧密协作：

前向传播：输入数据 $x$ 经过模型（如全连接层、卷积层）计算，得到 logits $z$ ；通过 softmax 得到预测概率 $q (y)$ 。
计算损失：用交叉熵损失 $-\log q(y_{\text{true}})$ 衡量预测与真实的差异。
反向传播：通过自动求导（如 PyTorch 的 autograd）计算损失对模型参数 $θ\theta$ 的梯度 $∇L(θ)\nabla L(\theta)$ 。
参数更新：梯度下降根据梯度 $∇L(θ)\nabla L(\theta)$ 和学习率 $η\eta$ ，更新参数 $θnew=θold−η⋅∇L(θold)\theta_{\text{new}} = \theta_{\text{old}} - \eta \cdot \nabla L(\theta_{\text{old}})$ 。

3.2 代码示例：用 PyTorch 实现“双引擎”训练

以下是一个简单的手写数字分类（MNIST 数据集）训练代码，展示梯度下降与交叉熵损失的协同工作：

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

# 1. 定义模型（简单全连接网络）
class MNISTClassifier(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(28*28, 128)  # 输入层：28x28像素 → 128神经元
        self.fc2 = nn.Linear(128, 10)     # 输出层：128神经元 → 10类别（0-9）

    def forward(self, x):
        x = x.view(-1, 28*28)  # 展平为一维向量
        x = torch.relu(self.fc1(x))  # ReLU激活函数
        x = self.fc2(x)  # 输出logits（未归一化）
        return x

# 2. 加载数据（MNIST训练集）
transform = transforms.Compose([transforms.ToTensor()])
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)

# 3. 初始化模型、损失函数、优化器
model = MNISTClassifier()
criterion = nn.CrossEntropyLoss()  # 交叉熵损失（内部集成softmax）
optimizer = optim.SGD(model.parameters(), lr=0.01)  # SGD优化器（梯度下降实现）

# 4. 训练循环（迭代10轮）
for epoch in range(10):
    model.train()  # 开启训练模式
    total_loss = 0
    for batch_idx, (data, target) in enumerate(train_loader):
        # 前向传播：计算logits
        logits = model(data)
        
        # 计算交叉熵损失
        loss = criterion(logits, target)
        
        # 反向传播：计算梯度
        optimizer.zero_grad()  # 清空历史梯度
        loss.backward()        # 反向传播
        
        # 梯度下降：更新参数
        optimizer.step()
        
        total_loss += loss.item()
        
        # 每100个batch打印一次日志
        if batch_idx % 100 == 0:
            print(f'Epoch: {epoch+1}, Batch: {batch_idx}, Loss: {loss.item():.4f}')
    
    print(f'Epoch {epoch+1} completed. Average Loss: {total_loss/len(train_loader):.4f}')

3.3 关键细节：“隐藏”的协同优化

Softmax 与交叉熵的数值稳定性：直接计算 softmax 可能因指数运算导致数值溢出（如 $e^{1000}$ 远超浮点精度）。PyTorch 的 nn.CrossEntropyLoss 内部采用“Log-Sum-Exp Trick”（对数域计算），避免了这一问题。
学习率的选择：学习率过大可能导致梯度震荡（无法收敛），过小会导致训练缓慢。实际中常用“学习率衰减”（如每10轮将学习率乘以0.1）来平衡。
梯度清零（Zero Grad）：每次反向传播前需清空优化器的历史梯度（optimizer.zero_grad()），否则梯度会累加，导致错误的参数更新。