优化器

最新推荐文章于 2025-06-12 09:00:42 发布

原创最新推荐文章于 2025-06-12 09:00:42 发布 · 311 阅读

1 ·

CC 4.0 BY-SA版权

AI 专栏收录该内容

6 篇文章

订阅专栏

优化器

SGD

$Wnew=Wold−α∂Loss∂WoldW_{new}=W_{old} - \alpha\frac{\partial{Loss}}{\partial{W_{old}}}$

$α\alpha$ :学习率
缺点：容易陷入局部极小值
加入动量（Momentum），解决局部极小值。

SGD+Momentum

Momentum更新： $Vnew=ηVold+α∂LossWoldV_{new}=\eta V_{old} +\alpha \frac{\partial{Loss}}{W_{old}}$

更新公式： $W_{new} = W_{old}-V_{new}$

$α\alpha$ :学习率
$η\eta$ :动量系数
优点：防止陷入局部极小值，由于动量由历史积累，使得收敛速度快。
缺点：容易震荡

NAG（Nesterov加速梯度）

Momentum完全展开公式： $Wnew=Wold−ηVold−α∂LossWoldW_{new} = W_{old}- \eta V_{old}-\alpha \frac{\partial{Loss}}{W_{old}}$
$α∂LossWold\alpha \frac{\partial{Loss}}{W_{old}}$ 是个很小的值，未来位置权重：
$Wfuture=Wold−ηVoldW_{future}=W_{old}-\eta V_{old}$

Nesterov Momentum公式 $Vnew=ηVold+α∂LossWfutureV_{new}=\eta V_{old}+\alpha \frac{\partial{Loss}}{W_{future}}$

更新公式： $W_{new} = W_{old}-V_{new}$

梯度更新规则
$vt=γvt−1+η▽θ(θ−γvt−1)v_t=\gamma v_{t-1}+\eta \triangledown_{\theta}(\theta-\gamma v_{t-1})$

$θ=θ−vt\theta=\theta-v_t$

Adagrad

梯度缓存更新： $Cachenew=Cacheold+(∂LossWold)2Cache_{new}=Cache_{old}+(\frac{\partial{Loss}}{W_{old}})^2$
更新公式： $Wnew=Wold+αCachenew+ϵ∂LossWoldW_{new} = W_{old}+\frac{\alpha}{\sqrt{Cache_{new} + \epsilon}}\frac{\partial{Loss}}{W_{old}}$
缺点：缓存始终增加，学习率会降到非常低以至于训练无法有效进行，导致训练提前结束。