学习率退火

最新推荐文章于 2025-07-15 19:08:51 发布

lanmengyiyu

最新推荐文章于 2025-07-15 19:08:51 发布

阅读量5.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习相关（cs231n）文章标签：学习率神经网络深度学习网络训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/lanmengyiyu/article/details/79341487

深度学习相关（cs231n）专栏收录该内容

49 篇文章

订阅专栏

本文探讨了神经网络训练中学习率的调整策略，包括随步数衰减、指数衰减及1/t衰减三种常见方法，并分析了它们的应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在训练神经网络时，一般情况下学习率都会随着训练而变化，这主要是由于，在神经网络训练的后期，如果学习率过高，会造成loss的振荡，但是如果学习率减小的过快，又会造成收敛变慢的情况。因此，如何调整学习率也是一个值得讨论的问题。目前，比较常见的学习率退火方式有如下三种：

随步数衰减

比较常见的随步数衰减方式是每经过5个epoch学习率减小为一半，或者每经过20个epoch学习率减小为原来的十分之一。或者还有一种常见的经验做法，当发现验证集的loss停止下降的趋势时，将学习率固定的缩小一定的比例，如一半。

在实际应用中，随步数衰减的方法应用最为广泛。

指数衰减

指数衰减可以用如下的数学公式表示, $\alpha=\alpha_0e^{-kt}$ ,其中，t表示迭代次数，而 $\alpha_0,k$ 是超参数

1/t衰减

1/t衰减可以用如下的数学公式表示， $\alpha=\alpha_0/(1+kt)$
与指数衰减的公式定义一致，t表示迭代次数，而 $\alpha_0,k$ 是超参数

事实上，如果计算资源足够多，或者对训练的时间没有要求，可以把学习率设为一个较小的数值，这样总能在缓慢的训练中，最终达到收敛。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。