自适应学习率--李宏毅机器学习笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/knofrab/article/details/146486866

个人学习笔记，如有错误欢迎指正，也欢迎交流，其他笔记见个人空间

Training Stuck ≠ Critical Point：训练过程中 loss 停止下降，不一定是因为参数到了 critical point（梯度趋近于0），很多时候是由于梯度震荡或方向问题。
示例说明，即使梯度不小，loss 也可能停止下降，尤其是在“山谷”两侧震荡时。

虽然loss不再下降,但是梯度的大小并没有真的变得很小

即便是在简单的 convex（凸）error surface 中，使用固定学习率的 gradient descent 也可能表现不佳：
- 学习率太大 → 震荡不断
- 学习率太小 → 更新速度过慢甚至停止
- 例如下图
原因在于不同方向上梯度变化率差异大，单一学习率无法兼顾所有参数。
假设打叉的地方是loss最小点，从黑色点出发学习率太大会导致震荡且很难往打叉的地方运动

如果学习率很小，在梯度大的地方没问题，到了梯度g本身很小的地方，乘以学习率后就更小，移动的就更慢了

总体思路是这样的，原来的是这样的，学习率固定

改成

通过 σ 来调节η

在 RMS Prop 裡面，α决定现在的这个梯度相比过去的梯度的权重。

α小，现在的梯度g比较重要；α大，之前的梯度比较重要。

对比这两种方法，以下图为例，如果是 Adagrad在中间这个陡坡， σ可能因为前面的小g很小，反应迟钝，一下子无法变大，让学习率没有及时减小，梯度又大，导致无法“刹车”，一下子跨出一大步飞到不知道哪去了。如果是 RMSProp，可以调节 α，小一点的话，σ的反应就很快。

李老师给出的例子是使用Adagrad跑，走到终点的时候突然爆炸，原因：在平坦的谷底积累太多小g，导致σ变小，学习率变大，虽然会修正回来但是浪费时间。

学习率调度策略简单来说就是学习率随着训练步数增加而减小

主要介绍了两种策略，一种是Learning Rate Decay，随着时间的不断地进行，随着参数不断的update，η让它越来越小，在靠近收敛点时起“刹车”作用，防止参数过度更新。

另外一种是Warm up

一开始用较小学习率，逐步增大，再慢慢减小。
用于让优化器前期收集“信息”，避免过早跳出合理区域。σ告诉我们,某一个方向它到底有多陡,或者是多平滑，那这个统计的结果，要看得够多笔数据以后，这个统计才精准，所以一开始我们的统计是不精准的。
常用于 BERT、ResNet、Transformer 等大型模型训练。