Momentum
Momentum的公式表达
设时间步 t t t的自变量为 x t \boldsymbol{x}_t xt,学习率为 η t \eta_t ηt。在 t 0 t_0 t0时刻,速度变量 v 0 = 0 \boldsymbol{v}_0=0 v0=0,在时间步 t > 0 t>0 t>0,Momentum关于速度变量 v t = 0 \boldsymbol{v}_t=0 vt=0和自变量 θ t \boldsymbol{\theta}_t θt的迭代方式为:
v t ← γ v t − 1 + η t g t , θ t ← θ t − 1 − v t , \begin{aligned} \boldsymbol{v}_t &\leftarrow \gamma \boldsymbol{v}_{t-1} + \eta_t \boldsymbol{g}_t, \\ \boldsymbol{\theta}_t &\leftarrow \boldsymbol{\theta}_{t-1} - \boldsymbol{v}_t, \end{aligned} vtθt←γvt−1+ηtgt,←θt−1−vt,
其中 γ \gamma γ 为超参数,满足 0 ≤ γ < 1 0 \leq \gamma < 1 0≤γ<1。
从上面的式子我们可以看出
- 速度变量 v t \boldsymbol{v}_t vt作用等价于梯度
- 速度变量 v t \boldsymbol{v}_t vt的大小与上一个时刻的速度变量 v t − 1 \boldsymbol{v}_{t-1} v