【tensorflow】】模型优化（一）指数衰减学习率

最新推荐文章于 2025-06-17 14:51:07 发布

原创最新推荐文章于 2025-06-17 14:51:07 发布 · 9.5k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #模型优化 #指数衰减学习率

深度学习专栏收录该内容

4 篇文章

订阅专栏

本文介绍了指数衰减学习率的概念及其在神经网络训练中的应用。通过调整学习率的大小和衰减速度，可以在训练初期快速逼近最优解，并在训练后期保持模型稳定。文中详细解释了相关参数的作用，并提供了实现示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

指数衰减学习率是先使用较大的学习率来快速得到一个较优的解，然后随着迭代的继续,逐步减小学习率，使得模型在训练后期更加稳定。在训练神经网络时，需要设置学习率（learning rate）控制参数的更新速度，学习速率设置过小，会极大降低收敛速度，增加训练时间；学习率太大，可能导致参数在最优解两侧来回振荡。

函数原型：

tf.train.exponential_decay(
    learning_rate,
    global_step,
    decay_steps,
    decay_rate,
    staircase=False，#默认为False

    name=None
)

staircase：布尔值。如果True以不连续的间隔衰减学习速率，最后曲线就是锯齿状

该函数返回衰退的学习速率。它被计算为：


decayed_learning_rate = learning_rate *                        decay_rate ^ (global_step / decay_steps)
指数衰减学习率的各种参数：
# 初始学习率
learning_rate = 0.1
# 衰减系数
decay_rate = 0.9
# decay_steps控制衰减速度
# 如果decay_steps大一些,(global_step / decay_steps)就会增长缓慢一些
#   从而指数衰减学习率decayed_learning_rate就会衰减得慢一些
#   否则学习率很快就会衰减为趋近于0
decay_steps = 50
# 迭代轮数
global_steps = 3000

此时的意思是学习率以基数0.9每50步进行衰减。例如当迭代次数从1到3000次时，迭代到最后一次时，3000/50=60. 则衰减到基数的60次方。

$learning\_rate$ 是初始化的学习率， $decayed\_learning\_rate$ 是随着 $global\_step$ 的递增而衰减。显然，当 $global\_step$ 为初值0时，有下面等式： $decayed\_learning\_rate = learning\_rate$

$decay\_steps$ 用来控制衰减速度，如果 $decay\_steps$ 大一些, $global\_step / decay\_steps$ 就会增长缓慢一些。从而指数衰减学习率 $decayed\_learning\_rate$ 就会衰减得慢一否则学习率很快就会衰减为趋近于0。

徒手实现指数衰减学习率：

import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
X = []
Y = []
learning_rate=1
global_steps=3000
decay_steps=50
decay_rate=0.9
# 指数学习率衰减过程
for global_step in range(global_steps):
    decayed_learning_rate = learning_rate * decay_rate**(global_step / decay_steps)
    X.append(global_step / decay_steps)
    Y.append(decayed_learning_rate)
    #print("global step: %d, learning rate: %f" % (global_step,decayed_learning_rate))
plt.plot(X,Y,'b')
plt.ylabel(u"learning_rate学习率")
plt.xlabel('global_step / decay_steps')
plt.show()