各种优化器

ouger爱编程

于 2023-11-27 13:18:11 发布

阅读量810

点赞数 21

分类专栏：算法岗面经文章标签：算法职场和发展面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/onlyyoujojo/article/details/134610841

版权

算法岗面经专栏收录该内容

7 篇文章

订阅专栏

梯度下降：

SGD: 优点：速度快、效果好。缺点：因为随机，会陷入局部最优解。
BGD: 整个训练集的数据。
MBGD: 结合BGD和SGD的折中。

优化：从梯度和学习率入手。

动量(加速收敛，减小震荡)：

普通动量：

每个指数加权平均后的梯度含有之前梯度的信息
$m_{t+1} = \beta m_t + (1-\beta)\bigtriangledown_{\theta}J(\theta)$
其中 $动量，\bigtriangledown_{\theta}J(\theta)是梯度$ , $\beta 通常为0.9$
在这里插入图片描述

NAG（Nesterov accelerated gradient）

在这里插入图片描述
$m_{t+1} = \beta m_t + (1-\beta)\bigtriangledown_{\theta}J(\theta - \beta m_t)$

ps:网上有人说和二阶信息有关，没太明白。

学习率

自适应学习率优化算法：

AdaGrad：参考全部历史梯度，使学习率自适应的下降。缺点：学习率很快变成0。

$G_{t,ii}$ 就是所有梯度的平方和。 $g_{ii}$ 是当前的梯度
Adadelta：设置窗口W，1、 $G$ 改为对过去所有的梯度平方的指数加权平均。2、学习率调整为更新量的平方的加权平均。RMS是一个简写。
RMSprop：
Adam：结合了动量和Ada。

偏差校正

最终的公式：
Nadam：加上了Nesterov。
AdamW：加上了weight decay。

对 $\theta_1, \theta_2,\dots,\theta_n$ 指数加权平均:
$v_t = \beta v_{t-1}+(1-\beta)\theta_t$
得： $v_1,v_2,\dots,v_n$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。