权重更新优化器总结

最新推荐文章于 2024-05-10 15:02:05 发布

椰楠liu

最新推荐文章于 2024-05-10 15:02:05 发布

阅读量1.7k

点赞数 2

分类专栏：神经网络知识文章标签：机器学习神经网络深度学习算法网络

本文链接：https://blog.youkuaiyun.com/qq_34621022/article/details/106170590

版权

神经网络知识专栏收录该内容

5 篇文章

订阅专栏

权重更新优化器总结

在上吴恩达的深度学习课程时，学习了很多权重更新的方式，但当时学习的时候比较蒙，可能当时理解了，后面又忘了为什么这么用。这两天又看到一些资料，正好整理总结一下。

在这里插入图片描述
我们先计算一下反向传播的公式，具体详细过程就不再讲解了/
以上图为例，现在我们更新权重 $w_{11}^{(2)}$ ,更新公式如下所示：
$w_{11}^{(2)}(new) = w_{11}^{(2)}(old) - learning\_rate\times gradient$

在实际训练时数据集的量是非常庞大的，我们不能保证数据一次性全部载入内存，因此只能分批次训练。

如果使用整个样本集进行训练，损失梯度会指向全局最优的方向，如下图所示。
在这里插入图片描述
因此在进行梯度传播时我们不能总是保证梯度朝着最优的方向前进。如果使用分批次样本进行求解损失梯度则会指向当前批次最优的方向，但是这个方向从全局来说不一定是最优的方向。如下图所示：

为了解决这个问题我们就要使用到优化器(optimizer)，常见的优化器主要有一下几个：

SGD
SGD + Momentum
Adagrad
RMSProp
Adam
它们的目的就是为了使网络收敛的更快。

1. SGD优化器(Stochastic Gradient Descent)

SGD也就是我们常说的随机梯度下降方法。
$W_{t+1} = W_t - \alpha· g(W_t)$
缺点：

易受样本噪声影响，比如说样本集中有样本的标签标注错误，那么这就会影响梯度下降的方向，可能会使下降方向很大程度上偏离最优方向。
可能陷入局部最优解。每一批数据都是随机进行分批次训练，因此在可能存在在某一个批次下其方向与最优方向相背，去了另一个较低点，如下图红线部分所示：

为了解决这个问题，我们就要用到另一个优化方法：SGD + Momentum

2. SGD + Momentum

$v_t = \eta ·v_{t-1}+\alpha ·g(w_t)$ $w_{t+1} = w_t - v_t$ 其中 $\alpha$ 为学习率， $g(w_t)$ 为时刻t对参数 $w_t$ 的损失梯度， $\eta(0.9)$ 为动量系数。
这么做的意义：
在这里插入图片描述
这个方法可以有效抑制样本噪声的干扰。

3. Adagrad

计算公式：
$s_t = s_{t-1} + g(w_t)·g(w_t)$ $w_{t+1} = w_t - \frac{\alpha}{\sqrt{s_t+\varepsilon}}·g(w_t)$ 其中 $\alpha$ 为学习率， $g(w_t)为t$ 时刻对参数 $w_t$ 的损失梯度， $\varepsilon(10^{-7})$ 为防止分母为0的小数。

从公式我们可以看出 $s_{t}$ 实际上是对前面的梯度求和，这就会使得 $s_{t}$ 的值不断增大，在第二个式子中 $\frac{\alpha}{\sqrt{s_t+\varepsilon}}$ 的值会不断减小，就会达到一种学习率自己调节的效果。
但是这样也会出现另一个缺点：刚开始的时候学习率下降的太快，可能还没有收敛就停止了训练。
为了解决这个问题我们可以使用RMSProp优化器(自适应学习率)。

4. RMSProp优化器(自适应学习率)

其实这个优化器就是在Adagrad第一个式子的基础上添加了两个控制因子。
$s_t = \eta·s_{t-1} + (1-\eta)·g(w_t)·g(w_t)$ $w_{t+1} = w_t - \frac{\alpha}{\sqrt{s_t+\varepsilon}}·g(w_t)$ 其中 $\alpha$ 为学习率， $g(w_t)为t$ 时刻对参数 $w_t$ 的损失梯度， $\varepsilon(10^{-7})$ 为防止分母为0的小数， $\eta(0.9)$ 控制衰减速度。

5.Adam优化器(自适应学习率)

计算公式:
$m_t = \beta_1·m_{t-1} + (1-\beta_1)·g(w_t) \space\space\space\space\space\space\space\space\space\space\space\space\space 一阶动量$ $v_t = \beta_2·v_{t-1} + (1-\beta_2)·g(w_t)·g(w_t) \space\space\space\space\space\space\space\space\space\space\space\space\space 二阶动量$ $\hat{m_t} = \frac{m_t}{1-\beta_1^t}$ $\hat{v_t} = \frac{v_t}{1-\beta_2^t}$ $w_{t+1} = w_t - \frac{\alpha}{\hat{v_t}+\varepsilon}\hat{m_t}$ 其中 $\alpha$ 为学习率， $g(w_t)为t$ 时刻对参数 $w_t$ 的损失梯度， $\varepsilon(10^{-7})$ 为防止分母为0的小数， $\beta_1(0.9)，\beta_2(0.999)$ 控制衰减速度。