AdaGrad算法

最新推荐文章于 2025-07-02 20:17:38 发布

bl128ve900

最新推荐文章于 2025-07-02 20:17:38 发布

阅读量9.8k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： ML/DL/CV 基础知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/bl128ve900/article/details/98211689

AdaGrad是一种优化算法，其特点是随着迭代次数增加，学习率逐渐减小。它在处理稀疏数据时表现出优势，但可能因梯度累积导致学习率过早收缩，影响后期收敛。该算法初期鼓励快速收敛，后期转为惩罚收敛策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：

深度学习优化方法-AdaGrad https://blog.youkuaiyun.com/program_developer/article/details/80756008

AdaGrad算法介绍

表示第i个参数的梯度，对于经典的SGD优化方法，参数θ的更新为：

再来看AdaGrad算法表示为：

其中，r为梯度累积变量，r的初始值为0。ε为全局学习率，需要自己设置。δ为小常数，为了数值稳定大约设置为。

AdaGrad算法分析

（1）从AdaGrad算法中可以看出，随着算法不断迭代，r会越来越大，整体的学习率会越来越小。所以，一般来说AdaGrad算法一开始是激励收敛，到了后面就慢慢变成惩罚收敛，速度越来越慢。

（2）在SGD中，随着梯度的增大，我们的学习步长应该是增大的。但是在AdaGrad中，随着梯度g的增大，我们的r也在逐渐的增大，且在梯度更新时r在分母上，也就是整个学习率是减少的，这是为什么呢？
这是因为随着更新次数的增大，我们希望学习率越来越慢。因为我们认为在学习率的最初阶段，我们距离损失函数最优解还很远，随着更新次数的增加，越来越接近最优解，所以学习率也随之变慢。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。