Lecture 2 What to do if my network fails to train-优快云博客

本文链接：https://blog.youkuaiyun.com/Yi_cAt/article/details/126540578

Lecture 2: What to do if my network fails to train

文章目录

Chapter 2 What to do if my network fails to train

Chapter 2 What to do if my network fails to train

本章不讨论 $o v er f i tt in g$ 出现的情况，仅讨论在做 $o pt imi z a t i o n$ 时如何将 $gradient\ descent$ 做得更好。

为什么 Optimization 会失败？

在利用 $neural\ network$ 的时候，可能会出现上图中的两种情况。上图中蓝线，认为 $training\ loss$ 下降得不够多，不能充分体现神经网络的优势；上图中橙线， $training\ loss$ 从始至终都降不下来。

出现这两种情况的原因是 $\text{Loss Function}$ 对参数求导已经趋于 $0$ （即梯度趋近于 $\bf 0$ ），这时我们往往想到 $critical\ point$ ，即 $local\ minima$ （局部最小值）和 $saddle\ point$ （鞍点）。

当陷入局部最小值时，此时的梯度已经很难做出调整；当位于鞍点时，我们还有路可走，远离当前的鞍点。那么如何区分这两种情况呢？

区分 $local\ minima$ 和 $saddle\ point$

利用泰勒级数逼近 $L oss$

当我们到达 $critical\ point$ 时，上图绿框部分为 $0$ （梯度为 $\bf 0$ ），而从红色框中的这一项我们能判断出 $error\ surface$ 的形状，从而判断当前的 $critical\ point$ 属于哪一类型。

在critical point，为了更简单地表示，做了如下的数学变换：

结论如下：

可以转换为对海森矩阵 $\bf H$ 的研究：

$\bf H$ 是正定的，其所有特征值都为正，此时 $L(\theta^{'})$ 是局部最小；
$\bf H$ 是负定的，其所有特征值都为负，此时 $L(\theta^{'})$ 是局部最大；
$\bf H$ 的特征值有正有负，此时 $L(\theta^{'})$ 是鞍点。

举例

如下图所示，模型是 $y=w_1w_2x$ ，并且训练数据只有 $(x,\hat y)=(1,1)$ 这一组。

通过计算不同 $w_1,\ w_2$ 时的 $L oss$ ，画出如下的 $error\ surface$ ， $critical\ point$ 都用黑点标出：

如果不用上图这种穷搜法，应该如何判断呢？

写出 $loss\ function$ ；
求偏导；
求驻点；
计算海森矩阵 $\bf H$ ；
计算海森矩阵 $\bf H$ 的特征值（eigenvalue）；
得结论。

遇到鞍点时，通过海森矩阵 $\bf H$ 也许能找到更新方向。找到海森矩阵 $\bf H$ 的一组特征值 $\lambda<0$ 与特征向量 $\bf u$ ，再通过上图的数学处理找到新的参数 $\theta=\theta^{'}+\bf u$ 使得 $L(\theta)<L(\theta^{'})$ 。

接上例，取 $\lambda_2=-2,\ {\bf u}={(1,1)}^{\rm T}$ 。我们应该沿着 ${\bf u}={(1,1)}^{\rm T}$ 的方向更新参数，这样 $L oss$ 就会减小从而逃离鞍点，如下图所示。然而，这种方法在实际应用中很少用到。

$local\ minima$ v.s. $saddle\ point$

在更高的维度去找到解决 $local\ minima$ 的方法。存在一种可能 —— 存在一点，该点在二维空间是 $local\ minima$ ，而在三维空间该点是 $saddle\ point$ ，如下图所示。

在经验上，我们是支持 “参数（属性、维度）越多， $local\ minima$ 就越少” 这一说法的。

Small Gradient

Batch and Momentum

回顾

Small Batch v.s. Large Batch

在不考虑并行计算的前提下，Full Batch 和 mini Batch 的优缺点如上图所示。

如下图所示，存在并行计算的情况下，大批次不一定需要更多的时间计算梯度（相比于小批次）；小批次在一个 epoch 训练中可能需要更长的时间；

在实际情况中，大批次并没有像想象中的那么吃亏，反而效率更高；而采用小批次来训练，模型效果往往比大批次要好，如下图所示。

出现上述结果的可能原因如下图所示。

采用小批次训练，在 testing 时效果可能会更好，如下图所示。

原因是使用大批次时，如果存在下图所示的 $sharp\ minima$ 此时在 testing 阶段会出现较大的误差

Summary

是否存在使用大批次结果又优秀的情况呢？

Momentum（动量）

如上图所示，在真实世界中，有一个小球从高处沿着一个斜坡落下，由于重力的原因小球能够一直沿着斜坡滚下去，哪怕遇到了凹陷（ $local\ minima$ ）只要小球的速度够快，它就能离开当前凹陷（ $local\ minima$ ）。那么，我们是否能够设计出一种参数更新策略来模仿这一物理现象呢？—— 我们引入 Momentum（动量）。

(Vanilla) Gradient Descent

如上图所示，为了更新参数 $\theta$ ，记参数初始值为 $\theta^0$ ，计算此时的梯度 ${\bold g}^0$ ，接下来沿着梯度 $\bf {g}^0$ 的反方向更新参数，即 $\theta^1=\theta^0-\eta {\bf g}^0$ …，如此迭代更新下去。

Gradient Descent + Momentum

如上图所示，在引入动量后，为了更新参数 $\theta$ ，记参数初始值为 $\theta^0,\ {\bf m}^0=0$ ，计算梯度 ${\bold g}^0$ ，第一次参数 $\theta^0$ 更新与传统梯度下降策略一致（因为 ${\bf m}^0=0,\ {\bf m}^1=\lambda {\bf m}^0-\eta{\bold g}^0,\ \theta^1=\theta^0+{\bf m}^1=\theta^0-\eta{\bf g}^0$ ）；接下来计算梯度 ${\bold g}^1,\ {\bf m}^2=\lambda {\bf m}^1-\eta{\bf g}^1$ ，更新参数 $\theta^2=\theta^1+{\bf m}^2$ …，如此迭代更新下去。

也就是说，参数 $\theta$ 的每一次更新，其方向由当前梯度的反方向（ $-{\bf g}^i$ ）与引入的新参数 ${\bf m}^i$ 共同决定（两个向量做向量加法）。也可以这么说，参数 $\theta$ 的每一次更新，都考虑到了之前迭代更新中的每一个梯度（原因如下图所示， ${\bf m}^i$ 是 ${\bold g}^i$ 的线性组合）。

Adaptive Learning Rate

Training Stuck $\ne$ Small Gradient

我们总是习惯性地认为训练效果不佳是因为参数到达了 $critical\ point$ 附近，而实际情况不总是如此

如下图所示，当 $l oss$ 不再大幅度地减少时，梯度的范数仍然再波动，不总是处于 $Small\ Gradient$ 的状态。出现这种状况的原因可能是遇到了下图左边的 $error\ surface$ ；

Training can be difficult even without critical points

如上图 ① 所示，这是一个凸的 $error\ surface$ ，我们期待参数从图中的黑点调整到图中橙色的×处。图 ② 和 ③ 分别采用了不同大小的学习率用梯度下降法来更新参数。当学习率较大时，数值震荡情况较为明显；当学习率较小时，虽然能较为稳定的趋近理想结果，但是效率低下。由此引出不同的参数需要不同的学习率

Different parameters need different learning rate

我们期待当梯度变化较为陡峭时，使用较小的学习率；而当梯度变化较为平坦时，使用较大的学习率。

我们先只考虑更新一个参数的情况，最初的 $Gradient\ Descend$ ：
$\theta_i^{t+1}\leftarrow \theta_i^t-\eta {\bf g}_i^t\\ {\bf g}_i^t=\left.\frac{\partial L}{\partial \theta_i}\right|_{\theta=\theta_t}$
客制化学习率后：
$\theta_i^{t+1}\leftarrow \theta_i^t-\frac{\eta}{\sigma_i^t} {\bf g}_i^t$
不同的参数会有不同的 $\sigma$ ，不同的迭代更新也会有不同的 $\sigma$ 。接下来，我们讨论计算 $\sigma$ 的方法

Root Mean Square

一种常用的计算 $\sigma$ 的方法是计算梯度的均方根

如下图所示，参数 $\sigma$ 实现了梯度大时使用小学习率，梯度小时使用大学习率。图中蓝线，计算出的梯度小，等到更小的 $\sigma$ ，因此 $\eta/\sigma$ 的值就大，即学习率大；图中绿线，计算出的梯度大，等到更大的 $\sigma$ ，因此 $\eta/\sigma$ 的值就小，即学习率小。