小批量梯度下降(Mini-batch Gradient Descent)原理与实现

小批量梯度下降(Mini-batch Gradient Descent)原理与实现

小批量梯度下降是机器学习中优化模型参数的常用方法,介于全量梯度下降(使用全部数据)和随机梯度下降(每次使用单个样本)之间。它通过每次迭代使用小批量数据计算梯度,既减少了单次计算量,又保证了收敛稳定性。本文将结合代码实现,详细解析其核心步骤。


一、算法原理

1. 与全量/随机梯度下降对比

  • 全量梯度下降:每次迭代使用全部数据,计算精确但耗时。
  • 随机梯度下降:每次随机使用一个样本,计算快但收敛不稳定。
  • 小批量梯度下降:折中方案,每次使用小批量(如10、32、64个样本)计算梯度,兼顾效率和稳定性。

2. 核心公式

参数更新公式:
θ = θ − η ⋅ ∇ θ J ( θ ) \theta = \theta - \eta \cdot \nabla_\theta J(\theta) θ=θηθJ(θ)
其中, η \eta η 为学习率, ∇ θ J ( θ ) \nabla_\theta J(\theta) θJ(θ) 为损失函数对参数的梯度。


二、代码实现与解析

1. 数据生成

生成线性回归数据,添加随机噪声:

import numpy as np

# 生成模拟数据:y = 4 + 3x + 噪声
x = 2 * np.random.rand(100, 1)
y = 4 + 3 * x + np.random.randn(100, 1)
x_b = np.c_[np.ones((100, 1)), x]  # 添加偏置项x0=1

2. 超参数设置

  • n_epochs:训练轮数
  • batch_size:每批数据量
  • n_batchs:总批次数
n_epochs = 10000
m = 100                  # 总样本数
batch_size = 10          # 每批数据量
n_batchs = int(m / batch_size)  # 总批次数=10

3. 参数初始化

随机初始化参数 θ \theta θ(包含偏置项和权重):

theta = np.random.randn(2, 1)  # 初始化为随机值

4. 学习率调整

动态调整学习率,避免后期震荡:

t0, t1 = 1, 200
def learning_rate_adjust(t):
    return t0 / (t + t1)  # 学习率随迭代次数衰减

5. 训练过程

核心步骤:打乱数据、分批计算梯度、更新参数。

for t in range(n_epochs):
    # 打乱数据顺序,确保均匀采样
    shuffled_indices = np.random.permutation(m)
    x_shuffled = x_b[shuffled_indices]
    y_shuffled = y[shuffled_indices]
    
    # 遍历每个批次
    for i in range(n_batchs):
        start = i * batch_size
        end = start + batch_size
        x_batch = x_shuffled[start:end]  # 当前批次特征
        y_batch = y_shuffled[start:end]  # 当前批次标签
        
        # 计算梯度并更新参数
        learning_rate = learning_rate_adjust(t * n_batchs + i)
        gradients = x_batch.T.dot(x_batch.dot(theta) - y_batch)  # 梯度公式
        theta = theta - learning_rate * gradients
代码解析:
  • 打乱数据np.random.permutation 生成随机索引,确保每轮训练数据的随机性。
  • 批次划分:通过 startend 索引划分批次,避免越界。
  • 梯度计算
    公式为 ∇ θ J ( θ ) = X batch T ⋅ ( X batch θ − y batch ) \nabla_\theta J(\theta) = X_{\text{batch}}^T \cdot (X_{\text{batch}} \theta - y_{\text{batch}}) θJ(θ)=XbatchT(Xbatchθybatch),对应代码 x_batch.T.dot(x_batch.dot(theta) - y_batch)

三、结果分析

训练完成后,打印参数 θ \theta θ

print(theta)

输出结果接近真实值(4和3):

[[3.96294278]
 [3.17504602]]

添加噪声后,模型成功拟合出近似线性关系,验证了算法有效性。


四、总结

小批量梯度下降的优势

  • 计算效率:比全量梯度下降更快,尤其适合大规模数据。
  • 收敛稳定性:比随机梯度下降更少震荡,容易收敛到最优解。

注意事项

  • 批次大小选择:需根据数据规模和硬件条件调整(常用32、64、128)。
  • 学习率衰减:避免后期因学习率过大跳过最优解。

完整代码已附在文中,可直接运行。如有疑问,欢迎评论区交流!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值