LLM学习之路-01-第一章-预训练/神经网络的优化器(六)AdaGrad

每天3分钟,彻底弄懂神经网络的优化器(六)AdaGrad

1. AdaGrad算法的提出

AdaGrad(Adaptive Gradient Algorithm)是由 John Duchi, Elad Hazan, 和 Yoram Singer 提出的。这个算法在2011年的论文《Adaptive Subgradient Methods for Online Learning and Stochastic Optimization》1 中被详细描述,并发表在了《Journal of Machine Learning Research》上。AdaGrad算法的主要特点是为每个参数独立地调整学习率,使得不频繁更新的参数可以获得更大的学习率,而频繁更新的参数则获得较小的学习率。这种自适应调整学习率的方法特别适合处理稀疏数据,因为它能够对稀疏特征给予更多的关注。然而,AdaGrad也有其缺点,主要是在学习过程中累积的平方梯度和会导致学习率变得过小,从而在训练后期几乎停止学习。为了解决这个问题,后续研究者提出了AdaGrad的变种,如AdaDelta和Adam等。

2. AdaGrad算法的原理

  1. 初始化:为每个参数\theta_i初始化梯度平方和 \sum g_i^2 = 0

  2. 梯度计算:在每次迭代中,计算参数 \theta_i 的梯度 g_i

  3. 更新梯度平方和: \sum g_i^2 = \sum g_i^2 + g_i^2

  4. 计算自适应学习率\eta_i = \frac{\eta}{\sqrt{\sum g_i^2} + \epsilon}其中\eta是全局学习率,\epsilon 是一个很小的数(如 1e−8),用于防止分母为零。

  5. 参数更新: \theta_i=\theta_i\eta_ig_i

参数:

  • \eta:全局学习率,控制初始的学习速度。
  • \in:用于数值稳定性的小常数,防止分母为零。

Adagrad(Adaptive Gradient Algorithm)是一种用于优化大规模机器学习算法的梯度下降算法。它通过为每个参数自适应地调整学习率来解决标准梯度下降算法中的一些限制,特别是在处理稀疏数据时。

3.Adagrad的主要特点:

  1. 自适应学习率:Adagrad为每个参数单独设置学习率,这意味着每个参数的学习率可以根据其历史梯度信息进行调整。

  2. 处理稀疏数据:Adagrad特别适合处理稀疏数据,因为它能够为频繁更新的参数减小学习率,为不常更新的参数增大学习率。

  3. 不需要手动调整学习率:Adagrad不需要手动设置学习率,它会自动根据参数的更新历史来调整学习率。

4.优点和局限性:

优点

  • 自适应学习率,适合处理稀疏数据。
  • 不需要手动调整学习率。

局限性

  • 学习率递减,可能导致早期停止,特别是在处理非凸问题时。
  • 对于非常大的数据集,累积的梯度平方和可能变得非常大,导致学习率过小。

Adagrad是一种有效的优化算法,尤其适用于处理大规模和稀疏数据集。然而,由于其学习率递减的特性,可能需要与其他优化算法(如RMSprop或Adam)结合使用,以克服其局限性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

雨墨C

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值