随机梯度下降,随机的含义

梯度下降法中,有3中不同的策略。分别是:

  • (full) batch gradient descent = 批梯度下降,是指所有数据一次性全部喂给模型,然后用梯度下降法更新参数。这种策略的问题就是一次迭代的时间太长了,难得等。(是否存在随机的问题,也就是数据是否会打乱喂给模型,我还不清楚)
  • mini-batch gradient descent = 小批梯度下降,是指把训练数据分成很多了mini-batch(也就是很多个数据的集合),每次喂一个mini-batch给模型,然后用梯度下降法来更新参数。这种方法是BGD和SGD这两个方法的折中。这里面也有随机,(有两种方案,其一是先打乱所有数据,然后平均划分数据,按顺序取就是了。另一种方案是先平均划分数据,然后随机取一个mini-batch。以上是我的思考,Keras和Tensorflow中如何实现的不清楚,有知道的同学请指教一下)
  • stochastic gradient descent = 随机梯度下降,每次随机选择一个数据,喂给模型,然后更新参数。这种策略的问题是每次数据太少了,模型学不到什么东西。

总结:平时我们说的随机梯度下降,就是SGD,随机是指随机选择一个数据喂给模型。


我在网上看到一篇博客文章:
在这里插入图片描述

随机选取大小为b的mini-batch

这种说法明显是错的!不知道从哪里学习到的。???


还有就是《深度学习入门:基于Python的理论与实现》一书中,P110:
在这里插入图片描述
作者说随机梯度下降是以mini-batch为单位喂给模型,随机选择一个mini-batch。作者想要表示的应该是mini-batch gradient descent。所以,我觉得这里应该有问题,要么是作者默认SGD就是mini-batch gradient descent,要么是他搞错了。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值