笔记——学习率衰减

最新推荐文章于 2025-03-13 21:17:12 发布

鱼之天空

最新推荐文章于 2025-03-13 21:17:12 发布

阅读量408

点赞数 2

分类专栏：深度学习笔记文章标签：学习率衰减

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/MHeartWGO/article/details/100164272

版权

深度学习笔记专栏收录该内容

16 篇文章

订阅专栏

加快学习的一个办法就是学习率衰减。

假设你要使用 mini-batch 梯度下降法，mini-batch 数量不大，大概 64 或者 128 个样本，在迭代过程中会有噪音，下降朝向这里的最小值，但是不会精确地收敛，所以你的算法最后在附近摆动，并不会真正收敛，因为你用的学习率是固定值，不同的 mini-batch 中有噪音。

但要慢慢减少学习率的话，在初期的时候，学习率还较大，你的学习还是相对较快，但随着学习率变小，你的步伐也会变慢变小，所以最后你的曲线(绿色线)会在最小值附近的一小块区域里摆动，而不是在训练过程中，大幅度在最小值附近摆动。

所以慢慢减少学习率的本质在于，在学习初期，你能承受较大的步伐，但当开始收敛的时候，小一些的学习率能让你步伐小一些。

学习率衰减的两种方法：

1.

$\alpha = 1/ (1+decayrate * epochnum) * \alpha$

decayrate为衰减率，是你需要调整的超参数，epochnum为迭代次数，a为学习率。

2.

$\alpha = 0.95^{epochnum}\alpha$

此时学习率呈指数下降

博客等级

码龄8年

117
原创

143
点赞

537
收藏

56
粉丝

关注

私信

热门文章

分类专栏

区块链 4篇
分布式 1篇
数据分析 1篇
机器学习 2篇
深度学习笔记 16篇
操作系统 9篇
SDN 4篇
pytorch学习 4篇
计蒜客 3篇
hdu 18篇
CCF 1篇
Leetcode 5篇
牛客网 9篇
剑指offer 4篇
全排序 3篇
C++ 13篇
二叉树 4篇
最小生成树 1篇
链表 1篇
安卓 6篇
java 2篇
数据结构 15篇
python菜鸟 14篇
深度学习 13篇

展开全部收起

最新评论

二元一次方程
闪云-微星: 抄的吧应该
Tensorflow油耗预测实战
御风而行_652: 感谢文心一言给的提示，虽然最后还是自己猜出来的。（哭笑不得）
Tensorflow油耗预测实战
御风而行_652: 好的，我搞明白了。那个model.build(input_shape=(None, 9))在新版本（）里面不用也不应该人去写到自己的代码里面，模型第一次前向计算的时候就会自动调用这个，然后第一次计算得出结果之后，才能调用model.summary()，这个时候那个打出来的表就是正常的。
Tensorflow油耗预测实战
御风而行_652: 这个class Network(keras.Model):里面的内容不对吧，我运行到后面的model.build(input_shape=(None, 9))，报错了： UserWarning: `build()` was called on layer 'network_2', however the layer does not have a `build()` method implemented and it looks like it has unbuilt state. This will cause the layer to be marked as built, despite not being actually built, which may cause failures down the line. Make sure to implement a proper `build()` method. 这个怎么回事啊？
拾遗-卷积神经网络关于通道数改变
笃谷: 如果输入channel是128，输出是256，那就是用256个3*3*128的channel吗？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。