(1)(批量)梯度下降
使用整个训练集的优化算法被称为批量(batch)梯度下降算法。术语“批量梯度下降”指使用全部训练集,而术语“批量”单独出现时指一组样本。
(2)随机梯度下降
每次只使用单个样本的优化算法被称为随机(stochastic)梯度下降算法。
(3)小批量梯度下降
大多数用于深度学习的算法介于批量梯度下降算法和随机梯度下降算法之间,小批量梯度下降算法(minibatch gradient descent)使用一个以上,而又不是全部的训练样本。
(4)不同梯度下降算法的区别:
(批量)梯度下降:在梯度下降中,对于θ的更新,所有的样本都有贡献,都参与调整θ,其计算得到的是一个标准梯度,因而理论上来说一次更新的幅度是比较大的。如果样本不多的情况下,当然是这样收敛的速度会更快啦~
随机梯度下降:可以看到多了随机两个字,随机也就是说我用样本中的一个例子来近似我所有的样本,来调整θ,因而随机梯度下降是会带来一定的问题,因为计算得到的并不是准确的一个梯度,容易陷入到局部最优解中。
小批量梯度下降:其实小批量的梯度下降就是一种折中的方法,它用了一些小样本来近似全部的,其本质就是我1个指不定不太准,那我用个30个50个样本那比随机的要准不少了吧,而且小批量的话还是非常可以反映样本的一个分布情况。
Reference:
http://blog.youkuaiyun.com/zbc1090549839/article/details/38149561
本文详细介绍了批量梯度下降、随机梯度下降及小批量梯度下降三种算法的区别与应用场景,帮助读者理解不同梯度下降算法的特点及其在深度学习中的应用。
1914

被折叠的 条评论
为什么被折叠?



