4.1-自动调整学习速率

ZHU883000

已于 2022-04-15 12:45:34 修改

阅读量1.1k

点赞数 1

分类专栏：李宏毅机器学习课程笔记文章标签：机器学习

于 2022-04-02 13:39:17 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43220896/article/details/123918288

版权

李宏毅机器学习课程笔记专栏收录该内容

20 篇文章

订阅专栏

首先一开始需要提出一个新的问题，那就是在参数更新次数不断增加，loss却趋于一个低值不再减小。一般情况我们会认为这个是遇到local minima了，但是一看梯度的具体值会发现，梯度值并不为0。那么他就有可能是卡在这个两壁之间了，左右横跳，左右都是一样的loss，梯度不为0还在横跳.

并且这种可能性比critical point的可能性大多了，而且一般在掉到最底下之前，就会被其他问题阻挠。

通过上图我们来论证一下卡在两壁之间真比掉到最底下更容易发生吗。

上图是一个很普通的loss值的等高线图，×就是我们要到达的地方。黑点是起始点，如果先把n也就是学习率设为0.01，learning rate会乘以梯度成为移动的距离，所以它其实就是我们迈出的步伐的大小，然后就会发现步伐太大了就跨过了，一直跨过头，就如同×在山谷底，而我们在前后山壁上来回跳。

那如果吧n设的更小一点，让步伐迈小一点呢。首先这个等高线之间其实就是梯度，那么等高线越密集的地方，梯度越密集，也就是梯度越大，所以在一开始还能走很大一步，但是一旦走到这个圈里面了，没有高度的变化了，梯度几乎为0 ，学习率也被设置的很小，那么移动的步伐会非常的小，根本就到不了×这个地方，图里面的这里就是更新100000次仍然只走了这么一点。

那我们发现问题其实就在学习率上面，我们会很轻易的想到，如果在高度变化小的地方，比如下图中沿着这个等高线的方向，或者是线的圈内，这个时候的learning rate大一点就好了，因为这个时候的g小，步伐迈不出去。并且在垂直跨越等高线，g会比较大的时候，learning rate能小一点就好了，这样就不会跨过头，在两壁之间反复横跳了。

所以需要这个learning rate可以自动调整，在坡度大的方向时小，坡度小的方向大。如下图，这里讲的时候假设只关注下标i这个参数，所以所有的都会带有下标i。将n除以一个σ，这个σ与上标t有关。这个σ叫做n这个参数的依赖(parameter dependent)。

先讲第一种简单的σ定义方式，叫做root mean square均方根。公式如下图。

简单来说，这个σ就是把过去所有的g都算均方根，平方相加再开根。它的效果如下右图，假设θ1是一个比较变化平缓的参数，是个平原谷，那么这个上面的蓝色g值都很小，那么σ也会小，σ是分母，所以n就会大。而θ2是一个陡峭谷，它上面有很大的g，那么Σ这个分母就会大，n就会小。这样就达到了让n可以根据在g方向上的变化剧烈与否（g陡峭与否）来相应改变了。