1. 学习率的作用
在机器学习中,监督式学习通过定义⼀个模型,并根据训练集上的数据估计最优参数。梯度下降法是⼀个⼴泛被⽤来最⼩化模型误差的参数优化算法。梯度下降法通过多次迭代,并在每⼀步中最⼩化成本函数(cost 来估计模型的参数。学习率 (learning rate),在迭代过程中会控制模型的学习进度。在梯度下降法中,都是给定的统⼀的学习率,整个优化过程中都以确定的步⻓进⾏更新,在迭代优化的前期中,学习率较⼤,则前进的步⻓就会较⻓,这时便能以较快的速度进⾏梯度下降,⽽在迭代优化的后期,逐步减⼩学习率的值,减⼩步⻓,这样将有助于算法的收敛,更容易接近最优解。故⽽如何对学习率的更新成为了研究者的关注点。
在模型优化中,常⽤到的⼏种学习率衰减⽅法有:分段常数衰减、多项式衰减、指数衰减、⾃然指数衰减、余弦衰减、线性余弦衰减、噪声线性余弦衰减。
2. 学习率衰减常⽤参数有哪些
3. 分段常数衰减
分段常数衰减需要事先定义好的训练次数区间,在对应区间置不同的学习率的常数值,⼀般情况刚
开始的学习率要⼤⼀些,之后要越来越⼩,要根据样本量的⼤⼩设置区间的间隔⼤⼩,样本量越⼤,
区间间隔要⼩⼀点。下图即为分段常数衰减的学习率变化图,横坐标代表训练次数,纵坐标代表学习
率。
4. 指数衰减
以指数衰减⽅式进⾏学习率的更新,学习率的⼤⼩和训练次数指数相关,其更新规则为:
这种衰减⽅式简单直接,收敛速度快,是最常⽤的学习率衰减⽅式,如下图所示,绿⾊的为学习率
随训练次数的指数衰减⽅式,红⾊的即为分段常数衰减,它在⼀定的训练区间内保持学习率不变。