Stochastic Gradient Descent vs Batch Gradient Descent vs Mini-batch Gradient Descent

本文对比分析了批量梯度下降(BGD)、随机梯度下降(SGD)与小批量梯度下降(MBGD)三种算法的特点及应用场景。批量梯度下降使用所有训练样本更新参数,适合小规模数据;随机梯度下降每次仅用一个样本进行参数更新,适用于大规模数据集;小批量梯度下降则结合两者优势,选取部分样本进行迭代。

梯度下降是最小化风险函数/损失函数的一种经典常见的方法,下面总结下三种梯度下降算法异同。

1、 批量梯度下降算法(Batch gradient descent)

以线性回归为例,损失函数为这里写图片描述

BGD算法核心思想为每次迭代用所有的训练样本来更新Theta,这对于训练样本数m很大的情况是很耗时的。

BGD算法表示为
这里写图片描述
或者表示为
这里写图片描述
这里写图片描述
其中X(m*n)为训练样本矩阵,α为学习速率,m为样本数,y(m*1)为样本结果标签向量,Theta(n*1)为参数向量

其中损失函数 J 对Theta的导数为
这里写图片描述

for iter = 1:num_iters

theta=theta-alpha/m*X'*(X*theta-y);

end

迭代num_iters次的BGD如上述代码所示

BGD大体执行过程
这里写图片描述

2、随机梯度下降算法(Stochastic Gradient Descent)

SGD在大规模训练集上会更高效
SGD的损失函数也与BGD有所不同
这里写图片描述

SGD算法在于每次只去拟合一个训练样本,这使得在梯度下降过程中不需去用所有训练样本来更新Theta。BGD每次迭代都会朝着最优解逼近,而SGD由于噪音比BGD多,多以SGD并不是每次迭代都朝着最优解逼近,但大体方向是朝着最优解,SGD大约要遍历1-10次数据次来获取最优解。

SGD算法大体分两步
这里写图片描述

SGD算法大体执行过程
这里写图片描述

其中学习速率α一般设置为常数,但我们也可以将α随迭代次数而减小,这样更有利于我们函数收敛向最优解

小批量梯度下降算法(Mini-batch Gradient Descent)

MBGD有时候甚至比SGD更高效。
MBGD不像BGD每次用m(所有训练样本数)个examples去训练,也不像SGD每次用一个example。MBGD使用中间值b个examples
经典的b取值大约在2-100
例如 b=10,m=1000

这里写图片描述

此处MBGD每次只用10个examples来训练。

参考自Andrew NG 在coursera的machine learning week10
参考链接

批量随机梯度下降Mini - Batch Stochastic Gradient Descent,简称 Mini - Batch SGD)是一种结合了批量梯度下降Batch Gradient Descent)和随机梯度下降Stochastic Gradient Descent)优点的优化算法。以下是采用小批量随机梯度下降的一般步骤和代码示例: ### 步骤 1. **数据准备**:将数据集划分为多个小批量Mini - Batch),每个小批量包含固定数量的样本。 2. **初始化参数**:为模型的参数(如权重和偏置)随机初始化初始值。 3. **迭代更新**:在每个迭代中,选择一个小批量的数据,计算该小批量数据上的梯度,然后使用梯度更新模型的参数。 4. **重复步骤3**:直到满足停止条件,如达到最大迭代次数或损失函数收敛。 ### 代码示例 以下是使用Python和PyTorch库实现小批量随机梯度下降的示例代码: ```python import torch import torch.nn as nn import torch.optim as optim # 定义一个简单的线性模型 class SimpleModel(nn.Module): def __init__(self): super(SimpleModel, self).__init__() self.linear = nn.Linear(10, 1) # 输入维度为10,输出维度为1 def forward(self, x): return self.linear(x) # 生成一些示例数据 num_samples = 1000 input_dim = 10 x = torch.randn(num_samples, input_dim) y = torch.randn(num_samples, 1) # 初始化模型 model = SimpleModel() # 定义损失函数和优化器 criterion = nn.MSELoss() optimizer = optim.SGD(model.parameters(), lr=0.01) # 定义小批量大小 batch_size = 32 num_batches = num_samples // batch_size # 训练模型 num_epochs = 10 for epoch in range(num_epochs): for i in range(num_batches): # 获取当前小批量的数据 start_idx = i * batch_size end_idx = start_idx + batch_size batch_x = x[start_idx:end_idx] batch_y = y[start_idx:end_idx] # 前向传播 outputs = model(batch_x) loss = criterion(outputs, batch_y) # 反向传播和优化 optimizer.zero_grad() loss.backward() optimizer.step() print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}') ``` ### 相关问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值