深度学习优化器大揭秘：批量梯度下降、随机梯度下降、小批量梯度下降怎么选？

最新推荐文章于 2025-07-12 23:39:57 发布

AI妈妈手把手

最新推荐文章于 2025-07-12 23:39:57 发布

阅读量1k

点赞数 10

CC 4.0 BY-SA版权

文章标签：深度学习人工智能 python 梯度下降优化算法 BGD SGD

本文链接：https://blog.youkuaiyun.com/qiutesting/article/details/149112022

引言：为什么需要梯度下降？

在深度学习的世界里，梯度下降算法就像是探险家手中的指南针，指引我们穿越复杂的参数空间，寻找最优模型参数的"宝藏"🗺️。无论是训练一个简单的线性回归模型，还是构建复杂的深度神经网络，梯度下降都是不可或缺的核心优化算法。

今天，我们就来深入探讨梯度下降的三种主要变体：批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)和小批量梯度下降(Mini-batch Gradient Descent)。通过本文，你将理解它们的工作原理、优缺点以及适用场景，并能在实际项目中做出明智的选择！

1. 批量梯度下降(BGD)：稳扎稳打的"学霸" 📚

1.1 基本原理

批量梯度下降(Batch Gradient Descent, BGD)是最传统的梯度下降形式。它就像班级里最认真的学霸，每次考试前都要复习所有的学习资料，确保对知识点的全面掌握。

数学上，BGD的更新公式为：

1.2 工作流程

初始化参数：随机设置模型参数的初始值
计算全局梯度：使用全部训练数据计算损失函数的梯度
更新参数：沿梯度反方向调整参数
重复迭代：直到满足收敛条件

1.3 特点

每次更新需要遍历整个数据集，适合小数据集或高精度需求。
收敛路径平滑，但可能陷入局部最优（非凸函数）

1.4 优缺点分析

优点：

收敛稳定：每次更新方向都是全局最优方向
理论保证：对于凸函数能保证收敛到全局最优解
无需调整batch size：省去一个超参数调优的麻烦

缺点：

计算成本高：每次迭代都要遍历全数据集
内存占用大：需同时加载所有数据
收敛速度慢：特别是对于大规模数据集

1.5 适用场景

BGD特别适合：

小型数据集(如几千条数据)
需要精确解的科研场景
计算资源充足的静态模型训练

import numpy as np
import matplotlib.pyplot as plt

# 模拟数据：100个样本，每个样本1个特征
np.random.seed(42)  # 固定随机种子，确保结果可复现
X = np.random.rand(100, 1)
y = 2 * X + 1 + 0.1 * np.random.randn(100, 1)  # 真实关系：y = 2x + 1 + 噪声

# 初始化参数
w = np.random.randn(1, 1)  # 权重
b = np.random.randn(1)     # 偏置
learning_rate = 0.01

# 记录损失和参数变化（用于绘图）
losses = []
w_history = []
b_history = []

# 批量梯度下降训练
for epoch in range(100):
    # 计算所有样本的预测值和梯度
    y_pred = np.dot(X, w) + b
    dw = np.dot(X.T, (y_pred - y)) / len(X)  # 权重梯度
    db = np.mean(y_pred - y)                 # 偏置梯度
    
    # 更新参数
    w -= learning_rate * dw
    b -= learning_rate * db
    
    # 记录损失和参数
    loss = np.mean((y_pred - y) ** 2)
    losses.append(loss)
    w_history.append(w[0, 0])
    b_history.append(b[0])
    
    if epoch % 10 == 0:
        print(f"Epoch {epoch}, Loss: {loss:.4f}, w: {w[0,0]:.4f}, b: {b[0]:.4f}")

# 可视化结果
plt.figure(figsize=(12, 5))

# 1. 损失函数下降曲线
plt.subplot(1, 2, 1)
plt.plot(losses)
plt.title("Loss over Epochs")
plt.xlabel("Epoch")
plt.ylabel("MSE Loss")
plt.grid(True)

# 2. 数据点与拟合直线变化（取初始、中间和最终状态）
plt.subplot(1, 2, 2)
plt.scatter(X, y, label="Data", color="blue", alpha=0.5)

# 绘制不同阶段的拟合直线
epochs_to_plot = [0, 50, 99]  # 选择初始、中间和最终阶段
for i, epoch in enumerate(epochs_to_plot):
    w_plot = w_history[epoch]
    b_plot = b_history[epoch]
    plt.plot(X, w_plot * X + b_plot, 
             label=f"Epoch {epoch} (w={w_plot:.2f}, b={b_plot:.2f})", 
             linestyle="--", alpha=0.7)

plt.title("Fitted Line at Different Epochs")
plt.xlabel("X")
plt.ylabel("y")
plt.legend()
plt.grid(True)

plt.tight_layout()
plt.show()

运行结果：

左图会显示损失从高到低平滑下降，证明模型在优化。
右图会显示三条虚线直线，从初始的随机猜测（可能很歪）逐步接近真实分布（斜率≈2，截距≈1）

2. 随机梯度下降(SGD)：灵活多变的"冒险家" 🎲

2.1 基本原理

随机梯度下降(Stochastic Gradient Descent, SGD)则像一位喜欢冒险的旅行者，每次只根据一个随机样本来决定前进方向。这种随机性虽然可能导致路径不稳定，但也带来了跳出局部最优的潜力！

数学表达式为：

2.2 工作流程

初始化参数：随机设置初始值
随机选择样本：从训练集中选取一个样本
计算样本梯度：基于该单个样本计算梯度
更新参数：立即更新模型参数
重复过程：遍历所有样本多次(epoch)

2.3 特点

训练速度快，内存占用低，适合大数据集或在线学习。
收敛路径震荡剧烈，可能跳过最优解（需结合学习率衰减策略）。

2.4 优缺点分析

优点：

计算效率高：每次只需处理一个样本
内存需求低：适合大规模数据集
在线学习：可实时处理新到达的数据
可能跳出局部最优：随机性有助于逃离局部极小值

缺点：

收敛不稳定：更新方向波动大
可能永不收敛：需要在后期降低学习率
对学习率敏感：需要精心调整学习率策略

2.5 适用场景

SGD特别适合：

大规模数据集(如百万级样本)
在线学习场景(如实时推荐系统)
非凸优化问题(如神经网络训练)

import numpy as np
import matplotlib.pyplot as plt

# 模拟数据
np.random.seed(42)
X = np.random.rand(100, 1)
y = 2 * X + 1 + 0.1 * np.random.randn(100, 1)

# 初始化参数（BGD和SGD共享初始值）
w_bgd = np.random.randn(1, 1)
b_bgd = np.random.randn()  # 改为标量
w_sgd = w_bgd.copy()
b_sgd = b_bgd  # 直接赋值，不用 .copy()，因为 b_bgd 是 float
learning_rate = 0.01

# 记录损失和参数
bgd_losses = []
sgd_losses = []
w_sgd_history = []
b_sgd_history = []  # 存储标量

# 批量梯度下降（BGD）
for epoch in range(100):
    y_pred = np.dot(X, w_bgd) + b_bgd
    dw = np.dot(X.T, (y_pred - y)) / len(X)
    db = np.mean(y_pred - y)  # 标量
    w_bgd -= learning_rate * dw
    b_bgd -= learning_rate * db
    bgd_losses.append(np.mean((y_pred - y) ** 2))

# 随机梯度下降（SGD）
for epoch in range(100):
    for _ in range(len(X)):
        idx = np.random.randint(0, len(X))
        x_i = X[idx:idx+1]
        y_i = y[idx:idx+1]
        y_pred = np.dot(x_i, w_sgd) + b_sgd
        dw = np.dot(x_i.T, (y_pred - y_i))  # (1,1)
        db = float(y_pred - y_i)  # 强制转为标量
        w_sgd -= learning_rate * dw
        b_sgd -= learning_rate * db
    
    # 记录SGD的损失和参数
    y_pred_all = np.dot(X, w_sgd) + b_sgd
    sgd_losses.append(np.mean((y_pred_all - y) ** 2))
    w_sgd_history.append(w_sgd.copy())
    b_sgd_history.append(b_sgd)  # 直接存储标量

# ----------------------- 可视化 -----------------------
plt.figure(figsize=(15, 5))

# 1. 损失曲线对比
plt.subplot(1, 2, 1)
plt.plot(bgd_losses, label="Batch Gradient Descent", linewidth=2)
plt.plot(sgd_losses, label="Stochastic Gradient Descent", linewidth=2)
plt.title("Loss Curve Comparison")
plt.xlabel("Epoch")
plt.ylabel("MSE Loss")
plt.legend()
plt.grid(True)

# 2. SGD拟合过程
plt.subplot(1, 2, 2)
plt.scatter(X, y, label="Data", color="blue", alpha=0.5)

# 绘制不同阶段的拟合直线
epochs_to_plot = [0, 50, 99]
colors = ['red', 'green', 'purple']
for i, epoch in enumerate(epochs_to_plot):
    w_plot = w_sgd_history[epoch][0, 0]
    b_plot = b_sgd_history[epoch]  # 直接是标量
    plt.plot(X, w_plot * X + b_plot, 
             label=f"SGD Epoch {epoch}", 
             color=colors[i], linestyle="--")

plt.title("SGD Fitting Process at Different Epochs")
plt.xlabel("X")
plt.ylabel("y")
plt.legend()
plt.grid(True)

plt.tight_layout()
plt.show()

运行结果：

左图（损失曲线）

BGD：稳定下降，但计算成本较高（每次用全部数据）。
SGD：波动下降，但计算效率高（每次用一个样本），适合大规模数据

右图（SGD 拟合过程）

展示了 SGD 如何从随机初始化逐渐优化参数，最终拟合数据。
说明 SGD 虽然波动大，但仍然能收敛到合理的解。

3. 小批量梯度下降(MBGD)：平衡稳健的"实践者" ⚖️

3.1 基本原理

小批量梯度下降(Mini-batch Gradient Descent, MBGD)是BGD和SGD的折中方案，每次使用一小批(batch)样本计算梯度。这就像小组学习，既不是独自一人，也不是全班一起，而是几个同学互相讨论，取长补短。

数学公式为：

3.2 特点

结合BGD和SGD的优点，是深度学习中的默认选择。
可利用矩阵运算加速（如GPU并行计算）。
需调参 B（常见值：32、64、128、256）

3.3 工作流程

初始化参数：随机设置初始值
数据分批：将训练集划分为多个小批量
计算小批量梯度：对当前batch计算梯度
更新参数：基于batch梯度更新参数
遍历所有batch：完成一个epoch
重复多个epoch：直到收敛

batch_size = 32

# 小批量梯度下降训练
for epoch in range(100):
    # 打乱数据顺序
    indices = np.random.permutation(len(X))
    X_shuffled = X[indices]
    y_shuffled = y[indices]
    
    # 分批次训练
    for i in range(0, len(X), batch_size):
        X_batch = X_shuffled[i:i+batch_size]
        y_batch = y_shuffled[i:i+batch_size]
        
        # 计算小批量的梯度
        y_pred = np.dot(X_batch, w) + b
        dw = np.dot(X_batch.T, (y_pred - y_batch)) / len(X_batch)
        db = np.mean(y_pred - y_batch)
        
        # 更新参数
        w -= learning_rate * dw
        b -= learning_rate * db
    
    # 计算整体损失（可选）
    y_pred_all = np.dot(X, w) + b
    loss = np.mean((y_pred_all - y) ** 2)
    print(f"Epoch {epoch}, Loss: {loss:.4f}")

4. 三种方法对比总结 📊

为了更直观地理解三种梯度下降法的区别，我们用一个表格总结它们的关键特点：

特性	批量梯度下降(BGD)	随机梯度下降(SGD)	小批量梯度下降(MBGD)
每次更新数据量	全数据集	单个样本	小批量(如32、64)
计算效率	低(特别大数据集时慢)	高	中到高
内存需求	高(需加载全部数据)	低	中等
收敛稳定性	非常稳定	不稳定(波动大)	相对稳定
收敛速度	慢	快(但可能震荡)	较快
更新方向噪声	无	大	中等
并行化潜力	低	低	高(适合GPU)
典型应用场景	小数据集、精确解需求	大规模数据、在线学习	深度学习、大规模训练