深度学习（李沐）线性回归笔记

BUG_A

已于 2025-03-04 20:42:51 修改

阅读量938

点赞数 16

分类专栏：深度学习文章标签：深度学习线性回归笔记

于 2025-03-04 20:37:57 首次发布

本文链接：https://blog.youkuaiyun.com/qq_53823403/article/details/146025604

版权

深度学习专栏收录该内容

1 篇文章

订阅专栏

在机器学习中，小批量数据训练（Mini-batch Training）是梯度下降法的一种实现方式，广泛用于深度学习模型的优化。其核心思想是：将整个训练数据分成多个小批次（mini-batch），每次使用一个批次的数据计算梯度并更新模型参数。以下是其完整原理及过程的详细解释：

一、为什么需要小批量训练？

1. 三种梯度下降法的对比

全批量梯度下降（Batch GD）：
- 每次使用全部数据计算梯度。
- 优点：梯度方向准确，收敛稳定。
- 缺点：计算成本高（尤其大数据集），内存需求大。
随机梯度下降（SGD）：
- 每次使用单个样本计算梯度。
- 优点：计算快，内存占用小。
- 缺点：梯度噪声大，收敛不稳定。
小批量梯度下降（Mini-batch GD）：
- 折中方案：每次使用一小部分样本（如 32、64、128 个）计算梯度。
- 优点：平衡计算效率与梯度稳定性，适合大规模数据。

2. 小批量训练的核心优势

计算效率：利用 GPU 并行计算加速。
内存友好：避免一次性加载全部数据。
梯度质量：比单样本噪声小，比全批量更新频率高。
二、小批量训练的全过程

假设数据集有 N 个样本，批量大小为 B，则每个 epoch 需要 ⌈N/B⌉次迭代。以下为具体步骤：

1. 数据预处理
随机打乱数据：每个 epoch 开始时打乱数据顺序，防止模型学习到数据排列的偏差。

分批次：将数据划分为多个小批量，例如：

# 示例：总样本数 1000，批量大小 64 → 16 个完整批次（每批 64） + 1 个尾部批次（16）

2. 迭代训练

For 每个小批量 in 所有批次：
1. 前向传播（Forward Pass）：
  - 输入当前批次的样本 $X_{batch}$ ，通过模型计算预测值 $\hat{y}_{batch}$ 。
  - 示例：线性模型 $\hat{y}_{batch}$ = $X_{batch}$ * $W$ +b。
2. 计算损失（Loss）：
  - 使用损失函数（如均方误差 MSE、交叉熵 CrossEntropy）比较预测值 $\hat{y}$ 与真实标签 $\hat{y}_{batch}$ 。
  - 示例： $L=\frac{1}{B}\sum_{1}^{B}\left ( \hat{y}_{i}-y_{i} \right )^{2}$ （平均损失）。
3. 反向传播（Backward Pass）：
  - 计算损失 L对模型参数（如权重 W、偏置 b）的梯度 $\frac{\partial L}{\partial W}$ ， $\frac{\partial L}{\partial b}$ 。
  - 注意：梯度计算基于当前批次的平均损失（若损失函数已取平均）。
4. 参数更新：
  - 使用梯度下降公式更新参数：
    $W \leftarrow W - \eta \cdot \frac{\partial L}{\partial W}, \quad b \leftarrow b - \eta \cdot \frac{\partial L}{\partial b}$
    其中 η 是学习率（learning rate）。
5. 梯度清零：
  - 清除当前批次的梯度，避免累加到下一个批次。

3. 完成一个 Epoch

遍历完所有批次后，完成一次全数据集的学习。
重复多个 epoch 直至模型收敛。

三、关键细节与公式推导

1. 梯度计算的数学原理

假设模型参数为 θ，损失函数为 L，单个样本的损失为 Li。
小批量梯度是批量内样本梯度的平均：
$\nabla_{\theta} L = \frac{1}{B} \sum_{i=1}^{B} \nabla_{\theta} L_i$
参数更新公式：
$\theta \gets \theta - \eta \cdot \nabla_{\theta} L$

2. 批量大小的影响

大批量（如 1024）：
- 梯度估计更准，但每次更新计算量大。
- 可能陷入局部最优，需要更大的学习率。
小批量（如 32）：
- 梯度噪声大，但更新频率高，可能逃离局部最优。
- 更适合分布式计算和 GPU 加速。

3. 损失函数的处理

总和损失 vs 平均损失：
- 若损失函数计算的是批次内总和（如 loss = sum((y_pred - y)^2)），梯度需手动除以 B。
- 若损失函数计算的是平均损失（如 loss = mean((y_pred - y)^2)），梯度已自然归一化。

四、可视化流程

原始数据集
│
├── 打乱顺序 → [样本3, 样本7, 样本1, ..., 样本N]
│
├── 分批次 → Batch1: [样本3, 样本7, ...], Batch2: [...], ..., BatchK: [...]
│
└── 逐批次训练：
前向传播 → 计算损失 → 反向传播 → 更新参数 → 梯度清零
(循环直至所有批次完成)

五、代码示例（结合 PyTorch）

import torch
from torch.utils.data import DataLoader, TensorDataset

# 假设 features 和 labels 是训练数据
dataset = TensorDataset(features, labels)
dataloader = DataLoader(dataset, batch_size=64, shuffle=True)

model = torch.nn.Linear(input_dim, output_dim)  # 简单线性模型
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
loss_fn = torch.nn.MSELoss()

for epoch in range(num_epochs):
    for X_batch, y_batch in dataloader:
        # 前向传播
        y_pred = model(X_batch)
        # 计算损失（PyTorch 默认取平均）
        loss = loss_fn(y_pred, y_batch)
        # 反向传播
        loss.backward()
        # 参数更新
        optimizer.step()
        # 梯度清零
        optimizer.zero_grad()

目前先关注流程部分