机器学习--神经网络训练：学习速率自我调节

原创已于 2024-02-28 16:49:03 修改 · 276 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #学习 #人工智能

于 2023-10-28 13:32:51 首次发布

机器学习专栏收录该内容

22 篇文章

订阅专栏

本文探讨了Loss函数下降停滞的问题，指出恒定学习率的局限性，并介绍了RMSProp和Adam等自适应学习率算法，通过RootMeanSquare控制学习速率，以及如何通过动量和学习速率衰减来优化模型训练过程，避免爆发情况的发生。

一、问题分析

Loss降不下去，不等价于梯度很小，看下图中，Loss函数降不下去了，但是梯度仍然在波动，可能就像是左边的图中所示，在横向移动，不能向下移动。
在这里插入图片描述
其实要到达critical point是很困难的，如下图，先让学习速率为10的-2次方，可以看到优化路径呈现上下跨度很大的锯齿形，这是因为学习速率太大了，起始点的梯度也很大，导致刹不住车，直接冲上去了，如果我们减小学习速率，这下不会导致直接冲出去，但是由于速率太慢，经过100000次update还是没能到critical point。通过这个现象我们发现，固定的学习速率不能适合所有时刻，我们需要进行适当的调整。
在这里插入图片描述

二、调节方法

1.Root Mean Square

不同的参数需要不同的学习速率，所以这里我们给学习速率除以一个parameter dependent，用它来控制我们的学习速率。
在这里插入图片描述
这里我们用Root Mean Square 来控制速率，取之前求得的所有梯度的平方和求平均值再开放得到这个Root Mean Square。

从表达式中我们可以看出，当梯度大时，Root Mean Square大，梯度的系数就小，移动的速率得到控制，不至于过快。
当梯度小时，Root Mean Square小，梯度的系数就大，移动的速率得到控制，不至于过慢。

2.RMSProp

在这里插入图片描述
这里我们的表达式不变，但是我们的parameter dependent的计算方法就需要改变一下了，我们用一个阿尔法取乘以前一个pd 的平方加上（1- 阿尔法）乘以当前位置梯度的平方，在开方，这里的阿尔法又是一个hyperparameter，需要自己定义，根据你觉得哪个参数的影响会更大来决定这两个参数的占比。
在这里插入图片描述
从表达式可以看出，这样最近的梯度对于pd 的影响较大，而相隔较远的梯度对于pd的影响更小，所以说在梯度增大的时候能够快速减小系数，梯度小的时候能够增大系数，使优化跨度不至于太慢。