优化技巧：梯度下降法-优快云博客

本文链接：https://blog.youkuaiyun.com/u013515273/article/details/77931072

1. Mini-batch

当 $batchsize = 1$ 时，就是“stochastic gradient descent (SGD)”；
当 $batchsize = m$ 时，就是“batch gradient descent (BGD)”；

–	优点	缺点
SGD	更新一次参数的速度很快-走的很快	收敛路线“波动很大”，可能导致无法收敛到全局最优
BGD	收敛路线“平稳”，每次都向着正确方向走	更新一次参数的速度很慢-走的很慢

于是中和两者优缺点，将batchsize设定在1~m之间。

2. Momentum

一种梯度更新方法，作用为平滑SGD或Mini-BGD带来的收敛过程的波动。

如下图，由蓝色波动变成红色波动。

更新方式如下：

{v d W [l] = β v d W [l] + (1 - β) d W [l] W [l] = W [l] - α v d W [l]

$\begin{cases} v_{dW^{[l]}} = \beta v_{dW^{[l]}} + (1 - \beta) dW^{[l]} \\ W^{[l]} = W^{[l]} - \alpha v_{dW^{[l]}} \end{cases}$

3. RMSprop

另一种梯度更新方法，作用为平滑SGD或Mini-BGD带来的收敛过程的波动。与Momentum的作用一样。

如下图，由蓝色波动变成绿色波动。

更新过程如下：

⎧ ⎩ ⎨ ⎪ ⎪ s d W [l] = β 2 s d W [l] + (1 - β 2) (d W [l]) 2 W [l] = W [l] - α d W [ l ] s d W [ l ] \sqrt + ε

$\begin{cases} s_{dW^{[l]}} = \beta_2 s_{dW^{[l]}} + (1 - \beta_2) (dW^{[l]})^2 \\ W^{[l]} = W^{[l]} - \alpha \frac{dW^{[l]}}{\sqrt{s^{ }_{dW^{[l]}}} + \varepsilon} \end{cases}$

4. Adam

另一种梯度更新方法，作用为平滑SGD或Mini-BGD带来的收敛过程的波动。是momentum和RMSprop的结合。

更新过程如下：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ v d W [l] = β 1 v d W [l] + (1 - β 1) \partial  \partial W [ l ] v c o r r e c t e d d W [l] = v d W [ l ] 1 - ( β 1 ) t s d W [l] = β 2 s d W [l] + (1 - β 2) (\partial  \partial W [ l ]) 2 s c o r r e c t e d d W [l] = s d W [ l ] 1 - ( β 2 ) t W [l] = W [l] - α v c o r r e c t e d d W [ l ] s c o r r e c t e d d W [ l ] \sqrt + ε

$\begin{cases} v_{dW^{[l]}} = \beta_1 v_{dW^{[l]}} + (1 - \beta_1) \frac{\partial \mathcal{J} }{ \partial W^{[l]} } \\ v^{corrected}_{dW^{[l]}} = \frac{v_{dW^{[l]}}}{1 - (\beta_1)^t} \\ s_{dW^{[l]}} = \beta_2 s_{dW^{[l]}} + (1 - \beta_2) (\frac{\partial \mathcal{J} }{\partial W^{[l]} })^2 \\ s^{corrected}_{dW^{[l]}} = \frac{s_{dW^{[l]}}}{1 - (\beta_2)^t} \\ W^{[l]} = W^{[l]} - \alpha \frac{v^{corrected}_{dW^{[l]}}}{\sqrt{s^{corrected}_{dW^{[l]}}} + \varepsilon} \end{cases}$