参数更新方法

最新推荐文章于 2025-10-22 12:56:36 发布

原创最新推荐文章于 2025-10-22 12:56:36 发布 · 3.8k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

deep learning论文笔记同时被 2 个专栏收录

16 篇文章

订阅专栏

15 篇文章

订阅专栏

本文深入探讨了梯度下降法及其多种变种，包括动量更新、NAG、Adagrad、RMSprop 和 Adam 等优化算法。通过对比不同算法的特点，帮助读者理解如何选择合适的优化策略。

代码实现

https://github.com/hsmyy/zhihuzhuanlan/blob/master/momentum.ipynb

1、梯度下降法

加大梯度下降的步长

继续加大步长

2、动量更新

Momentum改进自SGD算法，让每一次的参数更新方向不仅仅取决于当前位置的梯度，还受到上一次参数更新方向的影响。

v = mu * v - learning_rate * dx # integrate velocity

x += v # integrate position

3、NAG

如果预到的地点梯度比较大，更新就比较快，如果梯度比较小就更新比较慢

x_ahead = x + mu * v 通过上一次的动量v估计本次的位置，

v = mu * v - learning_rate * d x_ahead 通过估计的位置计算梯度，
x += v

4、Adagrad

cache += dx**2

x += - learning_rate * dx / (np.sqrt(cache) + eps)

这个方法其实是动态更新学习率的方法，其中cache将每个梯度的平方和相加，而更新学习率的本质是，如果求得梯度距离越大，那么学习率就变慢，而eps是一个平滑的过程，取值通常在（10^-4~10^-8 之间）

gt,i=∇θJ(θi)是目标函数对参数的梯度，ϵ是平滑项，防止除零操作，一般取值1e−8

Adagrad的一大优势时可以避免手动调节学习率，比如设置初始的缺省学习率为0.01，然后就不管它，另其在学习的过程中自己变化。当然它也有缺点，就是它计算时要在分母上计算梯度平方的和，由于所有的参数平法必为正数，这样就造成在训练的过程中，分母累积的和会越来越大。

5、RMSprop

cache = decay_rate * cache + (1 - decay_rate) * dx**2

x += - learning_rate * dx / (np.sqrt(cache) + eps)

6、Adam

m = beta1*m + (1-beta1)*dx

v = beta2*v + (1-beta2)*(dx**2)

x += - learning_rate * m / (np.sqrt(v) + eps)

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。