优化算法与梯度下降_优快云

最新推荐文章于 2024-09-25 22:08:20 发布

原创最新推荐文章于 2024-09-25 22:08:20 发布 · 229 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

神经网络优化算法专栏收录该内容

1 篇文章

订阅专栏

本文围绕优化算法与梯度下降展开。阐述了优化和深度学习的关系，指出优化目标是降低训练误差，深度学习要降低泛化误差，还提及优化在深度学习中的挑战。分析了机器学习与纯优化的区别和联系，介绍了评价准则。最后推导了梯度下降法，得出下降最快方向为梯度反方向。

优化算法与梯度下降

1. 优化和深度学习

优化与深度学习

在深度学习问题中，通常会预先设定一个损失函数，有了损失函数有，就可以通过优化算法试图将其最小化。这样的损失函数通常被称为优化问题的目标函数（objective function）。

优化和深度学习的关系 虽然优化为深度学习提供了最小化损失函数的方法，但本质上，优化和深度学习的目标有区别。优化算法的目标函数通常是一个基于训练数据集的损失函数，优化的目标在于降低训练误差。但是深度学习最终的目标是要降低泛化误差。这样，为了降低泛化误差，一方面使用优化算法用来降低训练误差，另外还要注意应对过拟合现象。

1.1 优化在深度学习中的挑战

深度学习中绝大多数目标函数很复杂，并不存在解析解，而需要使用基于数值方法的优化算法找到近似解，即数值解。目前主流的的优化算法都是这类基于数值方法的算法。为了求得最小化目标函数的数值解，需要通过优化算法经过有限次迭代模型参数来尽可能的降低损失函数的值。

优化在深度学习中的两个重要挑战：局部最小值和鞍点。

鞍点现象

如图上所示，目标函数在 $x$ 轴方向上是局部最小值，但在 $y$ 轴方向上是局部最大值。

假设一个函数的输入可 $k$ 维向量，输出为标量，那么其海瑟矩阵（Hessian matrix）有 $k$ 个特征值。该函数在梯度为0的位置上可能是局部最小值、局部最大值或鞍点。

海瑟矩阵在梯度为零的位置上的特征值全为正时，该函数得到局部最小值；
海瑟矩阵在梯度为零的位置上的特征值全为负时，该函数得到局部最大值；
海瑟矩阵在梯度为零的位置上的特征值有正有负时，该函数得到鞍点。

另外，根据随机矩阵理论，对于一个大的高斯随机矩阵来说，任一特征值是正或负的概率都是0.5，这压根，上面两种情况的概率为 $0.5^k$ 。由于深度学习模型参数通常都是高维的（ $k$ 很大），因此目标函数中的鞍点现象通常比局部最小值更常见。

2. 机器学习与纯优化的区别和联系

纯优化：给定约束下，寻找某些变量，使评价指标 $P$ 最优
机器学习：性能度量 $P$ （直接评价指标）直接定义在测试集，并且可能是不可解的。往往是通过降低代价函数 $J$ （间接评价准则，在测试数据中求解），来简介降低 $P$
给定模型假设空间和评价准则后，在训练数据上的寻优过程是一个直接优化过程

机器学习中优化以及性能度量P和代价函数J的关系

目标只要优化性能度量 $P$ ，但是因为其不可直接求解，例如分类任务，指标是分类的准确率。此时就需要寻找替代准则，即此时的代价函数 $J$ 。替代准则直接在训练集上操作。训练集上的数据是完全已知的，因此准则可直接优化。

2.1 评价准则

网络优化形式化

给定网络结构，优化对象为网络的参数： $\theta = \{\omega_i,...,b_i\}$
网络对应映射函数： $f_{\theta}(x)$ （可以理解为正向传播计算输出过程）
评价准则/目标函数：例如MSE $J(\theta) = \frac{1}{2}\sum^N_{i=1}|y_i-f_{\theta}(x^i)|^2$
寻优过程： $\theta^{*} = arg \min J(\theta)$

深度神经网络的优化特点

非线性：难以用解析法直接求出最优解，常使用迭代优化方法（也是对大多数非线性问题的解决方案）
参数无约束：多数网络满足
需要普适性方法：能够优化不同的网络结构
非凸：局部极小值 $\ne$ 全部极小值，甚至是多个局部极小值
高维：优化参数数以万计，局部最小值点罕见，鞍点常见
求解数据集规模大：优化算法需考虑效率

贪心优化过程

网络优化：在复杂高维函数的代价函数曲面上进行搜索
全部状况：难以了解（我在哪儿？要去哪儿？）
迭代优化：蒙面下山——在代价函数曲面上逐步移动，期望到达最低点的过程
但是怎么走？往哪儿走？（方向）走多远？（步长）
贪心策略：不管以后怎样，只考虑当前利益最大化——每次选择当前代价函数下降最大的方向和步长

3. 梯度下降法

根据上面的分析，优化过程是要使当前步变化引起代价函数变化最大（贪心策略）。
$\Delta J(\theta) = J(w_1+\Delta w_1,w_2+\Delta w_2)-J(w_1,w_2)$
因果关系：
$\Delta W\rightarrow \Delta f_{\theta} \rightarrow \Delta J(\theta)$
其中：
$\begin{aligned} \Delta W & =(\Delta w_1, \Delta w_2)\\ & =(\frac{\Delta w_1}{\epsilon},\frac{\Delta w_2}{\epsilon})\cdot \epsilon\\ &=(cos \varphi_1, cos \varphi_2 )\cdot \epsilon\\ &=\rho \cdot \epsilon {\kern 13pt} (|\rho| = 1) \end{aligned}$
这里的 $\rho$ 表示移动方向，是向量。 $\epsilon$ 表示移动步长，是标量。

代价函数增量
$\begin{aligned} \Delta J(\theta) &= J(w_1+\Delta w_1,w_2+\Delta w_2)-J(w_1,w_2))\\ & =\frac{\Delta J(\theta) = J(w_1+\Delta w_1,w_2+\Delta w_2)-J(w_1,w_2)}{|\Delta W|}\cdot |\Delta W| \end{aligned}$
代价函数是个标量。

$\Delta J(\theta)$ 在 $\rho(\Delta W)$ 方向上的方向导数为：
$\frac{\partial J(\theta)}{\partial \rho}=\lim_{\Delta W \rightarrow 0}\frac{J(w_1+\Delta w_1,w_2+\Delta w_2)-J(w_1,w_2))}{|\Delta W|}$
方向导数是个标量，梯度才是矢量，方向导数（标量）是梯度（矢量）在该方向上的投影。

在 $|\Delta W| = |\rho \epsilon|$ 足够小时，结合上面式子：
$\Delta J(\theta) = \frac{\partial J(\theta)}{\partial \rho}|\Delta W| = \frac{\partial J(\theta)}{\partial \rho}\cdot |\rho \epsilon| = \frac{\partial J(\theta)}{\partial \rho}\cdot \epsilon$
这里成立的前提不仅仅是因为 $|\rho = 1|$ ，更重要的是 $\epsilon$ 是个标量。

根据上式，目标是使得 $\Delta J(\theta)$ 在相同 $\epsilon$ 下最大，在步长 $\epsilon$ 一定时，该式的大小取决于方向导数 $\partial J(\theta)/\partial \rho$ .

如何确定？

展开（3）式：
$\begin{aligned} \frac{\partial J(\theta)}{\partial \rho}&=\lim_{\Delta W \rightarrow 0}\frac{J(w_1+\Delta w_1,w_2+\Delta w_2)-J(w_1,w_2))}{|\Delta W|}\\ &= \lim_{\Delta W \rightarrow 0}\frac{\frac{\partial J(w_1,w_2)}{\partial w_1} \cdot \Delta w_1+\frac{\partial J(w_1,w_2)}{\partial w_2} \cdot \Delta w_2+O(\Delta W)}{|\Delta W|}\\ &=\lim_{\Delta W \rightarrow 0}(\frac{\partial J(w_1,w_2)}{\partial w_1}\cdot \frac{\Delta w_1}{\Delta W}+\frac{\partial J(w_1,w_2)}{\partial w_2} \cdot \frac{\Delta w_2}{\Delta W}+\frac{O(\Delta W)}{|\Delta W|})\\ &= \frac{\partial J(w_1,w_2)}{\partial w_1}\cdot cos \varphi_1+\frac{\partial J(w_1,w_2)}{\partial w_2} \cdot cos \varphi_2\\ &=\{\frac{\partial J(w_1,w_2)}{\partial w_1},\frac{\partial J(w_1,w_2)}{\partial w_2}\}\cdot \{cos \varphi_1, cos \varphi_2\}\\ &=grad {\kern 5pt}J(w_1,w_2) \cdot \rho\\ &=|grad {\kern 5pt}J(w_1,w_2)| \cdot |\rho| \cdot cos<grad {\kern 5pt}J(w_1,w_2), \rho>\\ &=|grad {\kern 5pt}J(w_1,w_2)| \cdot cos <grad {\kern 5pt}J(w_1,w_2), \rho> \end{aligned}$
倒是第三行： $\cdot b = |a|\cdot|b| cos<a,b>$

推导到了这一步， $grad J(w_1,w_2)|$ 是个定值，则取决于 $J,\rho>$ .

即
$\frac{\partial J(\theta)}{\partial \rho}=|grad {\kern 5pt}J(w_1,w_2)| \cdot cos <grad {\kern 5pt}J(w_1,w_2), \rho>$
可知，当 ${\kern 5pt}J(w_1,w_2), \rho> = -1$ 时，在该方向的方向导数变化最大，即 $\rho$ 和 $J(\theta)$ 反向。