接上一章笔记
3.自适应学习率
3.1AdaGrad
AdaGrad是典型的自适应学习率方法,其能够根据梯度大小自动调整学习率。AdaGrad 可以做到梯度比较大的时候,学习率就减小,梯度比较小的时候,学习率就放大。
梯度下降更新某个参数 的过程为
(1)
在第 t 个迭代的值减掉在第 t 个迭代参数 i 算出来的梯度
(2)
代表在第 t 个迭代,即
时, 参数
损失 L 的微分,学习率是固定的。
现在要有一个随着参数定制化的学习率,即把原来学习率 η 变成
(3)
的上标为 i,这代表参数 σ 与 i 相关,不同的参数的 σ 不同。
的下标为 t,这代表参数 σ 与迭代相关,不同的迭代也会有不同的 σ。学习率从 η 改成
的时候,学习率就变得参数相关。
参数相关的一个常见的类型是算梯度的均方根。参数的更新过程为
(4)
其中