深度学习优化函数详解（6）-- adagrad

最新推荐文章于 2025-09-28 10:23:25 发布

原创

最新推荐文章于 2025-09-28 10:23:25 发布 · 1.8w 阅读

·

12

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文深入探讨Adagrad优化算法，它根据每个参数的历史梯度动态调整学习率，以适应不同参数的重要性。通过公式推导解释其工作原理，并通过实验展示Adagrad在实践中学习率逐渐减小导致收敛速度变慢的问题。

深度学习优化函数详解系列目录

本系列课程代码，欢迎star：
https://github.com/tsycnh/mlbasic

深度学习优化函数详解（0）-- 线性回归问题
 深度学习优化函数详解（1）-- Gradient Descent 梯度下降法
 深度学习优化函数详解（2）-- SGD 随机梯度下降
 深度学习优化函数详解（3）-- mini-batch SGD 小批量随机梯度下降
 深度学习优化函数详解（4）-- momentum 动量法
 深度学习优化函数详解（5）-- Nesterov accelerated gradient (NAG)
深度学习优化函数详解（6）-- adagrad

前面的一系列文章的优化算法有一个共同的特点，就是对于每一个参数都用相同的学习率进行更新。但是在实际应用中各个参数的重要性肯定是不一样的，所以我们对于不同的参数要动态的采取不同的学习率，让目标函数更快的收敛。
adagrad方法是将每一个参数的每一次迭代的梯度取平方累加再开方，用基础学习率除以这个数，来做学习率的动态更新。这个比较简单，直接上公式。

公式推导

$\nabla_{\theta_i} J(\theta)$ 表示第 $i$ 个参数的梯度，对于经典的SGD优化函数我们可以这样表示
$\theta_{i\_new}=\theta_i - \eta\nabla_{\theta_i} J(\theta)$

最低0.47元/天解锁文章

5 条评论

line line so easy 2022.05.27
$G_{i,t}迭代公式哪里后边加的应该是梯度的平方吧

Tisfy 2021.03.21
Nice!,古人云：吟怀未许老重阳，霜雪无端入鬓长。

huahuahuahhhh 2019.05.23
博主，请问“不同的参数要动态的采取不同的学习率”在公式的什么部分体现出来的呢？
- Jackkii Chen回复huahuahuahhhh 2020.03.02
  [reply]Blankit1[/reply]θi

忧郁的常凯申 2019.03.20
好

评论 5

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。