训练过程中使用学习率衰减

最新推荐文章于 2025-09-27 05:17:26 发布

原创

最新推荐文章于 2025-09-27 05:17:26 发布 · 1w 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#Keras #深度学习 #学习率衰减

随机梯度下降算法的性能与学习率有着直接的关系，这是因为学习率决定了参数移动到最优值时的速度。如果学习率过大很可能会越过最优值，如果学习率过小，优化的效率可能过低，收敛时间极长。那么一个很好的解决方案就是学习率衰减——即学习率随着训练的进行逐渐衰减。

在训练过程开始时，使用较大的学习率，这样就能快速收敛；随着训练过程的进行，逐渐降低学习率，这样有助于找到最优解。

目前两种较为流行的学习率衰减方法为：（1）线性衰减（2）指数衰减

（一）学习率线性衰减：

根据epoch逐步降低学习率。

在Keras中是通过SGD类中的随机梯度下降优化算法实现的，这个类有一个decay衰减率参数。

decay=0时，对学习率没有影响，非零时，学习率呈线性衰减。

公式为：

$LearningRate = LearningRate \ast \frac{1}{1+decay\ast epoch}$

在下面代码中，初始学习率设为0.1——这是一个较为高的值。decay设为0.005。

"""
学习率线性衰减
"""
from sklearn import datasets
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from keras.optimizers import SGD

#导入数据
dataset =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Samuel_0

关注关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Pytorch优化器常用的两种学习率衰减策略：指数衰减策略、余弦退火策略（附测试代码）

NorthSmile的博客

09-22

8814

Pytorch提供了多种学习率衰减策略，我在这里介绍常用的指数衰减策略和余弦退火策略，并分别介绍他们的代码实现。无论采用那种策略，在网络训练之间我们均需要进行以下两步工作：1）创建优化器Optimizer；2）为优化器绑定一个学习率控制器Scheduler；网络训练过程中，学习率不能过大，也不能过小，学习率过大会导致网络参数在最优值两边来回跳跃，难以收敛，学习率太小会导致网络收敛过慢，所以我们一般希望网络训练前期学习率较大可以加速网络收敛，后期学习率较小，以此使得网络更收敛于最优值。

pytorch----深度学习中学习率的衰减策略

2 条评论

哦-是我 2019.09.06
Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX AVX2.这个问题你解决了吗。
- rising_sun2233回复哦-是我 2019.10.29
  [reply]qq_39096123[/reply] 换支持AVX的tensorflow