一、随机梯度下降
对比于批量梯度下降,随机梯度下降能够节省更多的时间,而且优化的整体趋势也是向着收敛的方向进行的。具体的优点,特点还有待进一步研究学习,这里先跳过。
随机梯度下降也有很多种方法。这里只介绍一种。
一般来说,学习速率是固定不变的,也就是是个常数。
但是,往往随着迭代的进行,学习速率需要改变。
这里增加了一个动量项momentum γ,还有velocity。
我们选择mini-batch的随机梯度方法,每一次用 mini-batch 数量的样本来训练,在这里还要注意一点,我们一般需要将样本进行打乱,也就是随机抽取。
接下来,首先设置epoch(时代),随着epoch的增加,α变小,比如,每增加一个epoch, α缩小一倍。而γ一般初始化为0.5,随着迭代增加而改变,比如,当迭代次数达到20次的时候变为0.9.