批量梯度下降（BGD）,随机梯度下降（SGD），小批量梯度下降（MBGD）对比理解

最新推荐文章于 2025-03-24 12:16:19 发布

dastu

最新推荐文章于 2025-03-24 12:16:19 发布

阅读量1k

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44467105/article/details/104881322

版权

数据挖掘专栏收录该内容

25 篇文章

订阅专栏

1.批量梯度下降（BGD）

我们所说的梯度下降算法一般都默认是批量梯度下降。我们用每个样本去计算每个参数的梯度后，要将这个梯度进行累加求和
在这里插入图片描述
注意这里有一个求和符号，意思就是我们每次计算参数都是用全部的样本来计算这个参数的变化。
优点：
1.每次都使用全部全部数据，能更好的代表样本总体，从而更好的指示了正确的梯度下降的方向。
2.对于凸最优化问题，一定能够收敛的全局最优
3 可以并行化
缺点：
每次都使用全部样本进行计算，会导致计算量很大，对于样本数量很大的情况，这种计算会很耗费时间。

2.随机梯度下降(SGD)

与批量梯度下降不同，随机梯度下降每次迭代只使用一个样本来更新参数，使得训练速度更快。
在这里插入图片描述
注意这里是没有求和符号的，因为只用第i个样本来进行这次更新的计算。

优点：
每次迭代只用一个样本来更新参数，这就使得每次迭代的速度会大大加快，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的。
缺点：
很大可能会收敛于局部最优

3.小批量梯度下降（MBGD）

小批量梯度下降实际上是在批量梯度下降和随机梯度下降之间做了个中和。
下面我们假设一共1000个样本，每次迭代用10个样本进行参数更新，那么参数的更新如下。
在这里插入图片描述
对于小批量梯度下降需要注意的就是这个批量batch大小的选择：
如果选择过大：
1.如果batch过大的话，那么我们每个batch就变化很小，就有点接进去批量梯度下降算法
2.内存可能会撑不住
如果选择过小：
会导致其接近于随机梯度下降算法，它的梯度方向可能没那么准确

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。