神经网络与深度学习-性能优化_病态曲率-优快云博客

本文链接：https://blog.youkuaiyun.com/Inpcrs/article/details/129665875

文章探讨了神经网络和深度学习中的优化技术，包括动量法如何解决SGD的病态曲率问题，自适应梯度算法如AdaGrad、RMSProp和Adam如何动态调整学习率，以及二阶算法如牛顿法在优化中的应用。此外，还提到了模型初始化、权重衰减和dropout等提高模型性能的常用技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

神经网络与深度学习-性能优化

1. 动量法
- 1.1. 病态曲率
- 1.2. 动量法
2. 自适应梯度算法
3. 性能优化问题描述
- 3.1. 待解决问题
- 3.2. 基本思想
4. 二阶算法
- 4.1. 牛顿法
- 4.2. 其他二阶算法
5. 常用技巧
6. 总结

1. 动量法

1.1. 病态曲率

SGD问题： 病态曲率

在这里插入图片描述

图为损失函数轮廓。在进入以蓝色标记的山沟状区域之前随机开始。颜色实际上表示损失函数在特定点处的值有多大，红色表示最大值，蓝色表示最小值。我们想要达到最小值点，为此但需要我们穿过山沟。这个区域就是所谓的病态曲率

在这里插入图片描述
梯度下降沿着山沟的山脊反弹，向极小的方向移动较慢。这是因为脊的表面在W1方向上弯曲得更陡峭

1.2. 动量法

如果把原始的 SGD 想象成一个纸团在重力作用向下滚动，由于质量小受到山壁弹力的干扰大，导致来回震荡；或者在鞍点处因为质量小速度很快减为 0，导致无法离开这块平地。
动量方法相当于把纸团换成了铁球；不容易受到外力的干扰，轨迹更加稳定；同时因为在鞍点处因为惯性的作用，更有可能离开平地

动量法更新公式： $\begin{aligned} & v_t=\alpha v_{t-1}-\epsilon g_t \\ & \Delta \theta \leftarrow v_t \\ & \theta_{t+1} \leftarrow \theta_t+\Delta \theta \end{aligned}$

在这里插入图片描述
动量法效果比较

在这里插入图片描述

2. 自适应梯度算法

2.1. AdaGrad

Adaptive Gradient：自适应梯度

参数自适应变化：具有较大偏导的参数相应有一个较大的学习率，而具有小偏导的参数则对应一个较小的学习率
具体来说，每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根

在这里插入图片描述
AdaGrad问题：

学习率是单调递减的，训练后期学习率过小会导致训练困难，甚至提前结束
需要设置一个全局的初始学习率

2.2. RMSProp

RMSProp: Root Mean Square Prop

RMSProp 解决 AdaGrad 方法中学习率过度衰减的问题
RMSProp 使用指数衰减平均以丢弃遥远的历史，使其能够快速收敛；此外，RMSProp 还加入了超参数 𝜌 控制衰减速率
具体来说（对比 AdaGrad 的算法描述），即修改 $r$ 为： $\leftarrow \mathbb{E}\left[g^2\right]_t=\rho \cdot \mathbb{E}\left[g^2\right]_{t-1}+(1-\rho) \cdot g^2$
记： $S[g]_t=\sqrt{\mathbb{E}\left[g^2\right]_t+\delta}$
则： $\Delta \theta_t=-\frac{\epsilon}{R M S[g]_t} \odot g_t$

RMSProp算法：

在这里插入图片描述

2.3. Adam

Adam算法：

Adam 在 RMSProp 方法的基础上更进一步
- 除了加入历史梯度平方的指数衰减平均（𝑟）外
- 还保留了历史梯度的指数衰减平均（𝑠），相当于动量
Adam 行为就像一个带有摩擦力的小球，在误差面上倾向于平坦的极小值

在这里插入图片描述

3. 性能优化问题描述

3.1. 待解决问题

待解决问题：

权值𝐰取何值，指标函数𝐽(𝐰)最小？

恰恰是最优化方法中的基本问题：函数最小化

进一步，我们希望建立迭代形式，并且形式尽量简单，类似基本BP算法(最速梯度法): $w_{k+1}=w_k+\alpha_kp_k$ 如何选取 $\alpha_k,p_k$ 构成优化核心内容

3.2. 基本思想

考虑函数 $f (x)$ , 在某点 $x^*$ 上进行Taylor展开， $f(x)=f\left(x^*\right)+\left.\frac{d f}{d x}\right|_{x=x^*} \Delta x+\left.\frac{1}{2} \frac{d^2 f}{d x^2}\right|_{x=x^*}(\Delta x)^2+\cdots$ 考虑函数 $f (x)$ ，在某点 $x^*$ 展开，类似的，有： $f(\mathbf{x})=f\left(\mathbf{x}^*\right)+\left.\left[\frac{d f}{d x}\right]^{\mathrm{T}}\right|_{\left(\mathbf{x}=\mathbf{x}^*\right)} \Delta \mathbf{x}+\frac{1}{2}(\Delta \mathbf{x})^{\mathrm{T}} H\left(\mathbf{x}^*\right)(\Delta \mathbf{x})+\cdots$

二次展开在邻域内已较精确；因此我们后面将主要围绕二次型进行讨论

在这里插入图片描述

全局极小点, 局部极小点
- 一阶条件：必要条件 $\nabla f(x^*)=0$ (驻点）
- 二阶条件：充分条件 $H$ 半正定
鞍点：沿某方向是极大值点，沿另一方向是极小值

$F(x)=(x_1^2-1.5x_1x_2+2x_2^2)x_1^2$
在这里插入图片描述

前面讲述：二次型近似任意函数
进一步：某一算法是有效的<->对二次型应该有好的效果
所以：下面一般以二次型函数为例进行优化

4. 二阶算法

4.1. 牛顿法

对于二次型，有： $f\left(\mathbf{w}_{k+1}\right)=f\left(\mathbf{w}_k\right)+\mathbf{g}_k^{\mathrm{T}} \Delta \mathbf{w}_k+\frac{1}{2}(\Delta \mathbf{w})^{\mathrm{T}} A_k(\Delta \mathbf{w})+\cdots$
为求得 $w_k=?$ ， $f$ 最小，根据 $\frac{df}{d\varDelta w_k}=0$

有： $g_k+A_k\varDelta w_k=0$

最终得到： $w_{k+1}=w_k-A^{-1}_kg_k$

问题： 二次导数项(Hessian矩阵)求逆

常规梯度：

在这里插入图片描述

4.2. 其他二阶算法

高斯-牛顿法
Levenberg-Marquardt算法

5. 常用技巧

模型初始化：

简单的考虑，把所有权值在 $[- 1, 1]$ 区间内按均值或高斯分布进行初始化

Xavier初始化：为了使得网络中信息更好的流动，每一层输出的方差应该尽量相等。因此需要实现下面的均匀分布：
$\sim U\left[-\frac{\sqrt{6}}{\sqrt{n_{j}+n_{j+1}}}, \frac{\sqrt{6}}{\sqrt{n_{j}+n_{j+1}}}\right]$