深度学习中的优化策略

最新推荐文章于 2024-08-20 23:27:33 发布

z0n1l2

最新推荐文章于 2024-08-20 23:27:33 发布

阅读量779

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习三省吾身

本文链接：https://blog.youkuaiyun.com/z0n1l2/article/details/85869342

深度学习同时被 2 个专栏收录

49 篇文章

订阅专栏

三省吾身

21 篇文章

订阅专栏

SGD

$lr*\partial w$ 其中
$l r$ 是学习速率
$∂w=∂loss∂w\partial w = \frac{\partial loss}{\partial w}$

sgd_momentum

$v=mu∗v−lr∗∂wv=mu*v-lr*\partial w$
$w = w + v$
其中 $\in [0,1]$ 是momentum，一般 $m u = 0.9$ , $v$ 是中间变量,令 $w$ 更新更加平缓
后续改进的思路是不同参数自适应的采用不同的学习速率，比如利用对于前一次变化较大的参数降低起学习速率，保持学习的平滑

rmsprop

$(\partial w)^2$
$\frac{\partial w}{\sqrt{cache}+\epsilon}$
其中
$\in [0,1]$ 一般取值0.99
$c a c h e$ 记录 $∂w\partial w$ 幅度平方值，幅度变化大的参数降低学习速率，令 $w$ 更新平缓。
随着训练进度， $c a c h e$ 的值逐渐变大，导致实际 $l r$ 逐渐降低，学习速率越来越慢，这是一个缺陷。

adam

$m=β1∗m+(1−β1)∗∂wm=\beta_1 * m + (1-\beta_1) * \partial w$
$mt=m1−β1tm_t = \frac{m}{1-\beta_1^t}$
$v=β2∗v+(1−β2)∗(∂w)2v=\beta_2*v + (1-\beta_2)*(\partial w)^2$
$vt=v1−β2tv_t = \frac{v}{1-\beta_2^t}$
$\frac{m_t}{\sqrt{v_t}+\epsilon}$
其中
$t$ 是训练进度，比如更新次数，或epoch
$β1∈[0,1]\beta_1 \in [0,1]$ 一般取值0.9
$β2∈[0,1]\beta_2 \in [0,1]$ 一般取值0.999
$m$ 和 $v$ 分别是平滑后的 $∂w\partial w$ 和 $(∂w)2(\partial w)^2$
$m_t$ 和 $v_t$ 避免训练启动阶段训练速度太慢(因为 $m$ 和 $v$ 初始化都是0，训练最开始的一段时间二者都接近0)