牛顿法,拟牛顿法,梯度下降,随机梯度下降

最新推荐文章于 2024-01-04 15:03:54 发布

原创最新推荐文章于 2024-01-04 15:03:54 发布 · 3.7k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#牛顿法 #拟牛顿法 #梯度下降法 #随机梯度下降法

杂文同时被 3 个专栏收录

18 篇文章

订阅专栏

数据挖掘

10 篇文章

订阅专栏

算法

8 篇文章

订阅专栏

本文深入讲解牛顿法、拟牛顿法、梯度下降及随机梯度下降等优化算法的基本概念与计算公式，并对比各算法优缺点。

本文总结了牛顿法, 拟牛顿法,梯度下降和随机梯度下降的概念和计算公式.

牛顿法

首先考虑一维问题.
对于一个一维的函数,如果这个函数连续可微, 并且导数可以计算,
那么计算这个函数的最优解可以看成求解方程 $f'(x)=0$ 的根.
设 $F(x)=f'(x)$ , 这个求解过程就变成了求解方程 $F(x)=0$ 的过程.
使用上述迭代的方法就可以进行计算.

迭代的方程为:

$x^{k+1}=x^{k}-\frac{ f'(x^{k}) }{ f''(x^{k}) }$

对于多维情况, $f(x_1, x_2, x_3, \dots , x_n)$ , 需要求这个函数的最优解,
就是求 $\nabla f(\vec x) = \vec 0$ 的解.

其中 $\nabla f(\vec x) = ({ \partial f(\vec x) \over \partial x_{0} }, { \partial f(\vec x) \over \partial x_{1} }, \dots, { \partial f(\vec x) \over \partial x_{n} })$

按照求解一维函数的方法, 设 $F_{i}(\vec x) = { \partial f(\vec x) \over \partial x_{i} }$ .
则 $\nabla f(\vec x) = \vec F(\vec x)$ .

那么对于多维函数来说, 牛顿法的公式为:

$\begin{cases} \vec x = 初始值 \\ \vec x^{k} = \vec x^{k} - (D \vec F(\vec x^{k}))^{-1} \vec F( \vec x^{k}), & k = 0, 1, 2, \dots \end{cases}$

由于求解矩阵的逆的计算复杂度较高, 因此,需要使用替换的方法.
设 $\vec s = (D \vec F(\vec x^{k}))^{-1} \vec F( \vec x^{k})$ ,
即 $D \vec F(\vec x^{k}) \vec s = \vec F( \vec x^{k})$ .

牛顿法的公式变为:

$\begin{cases} \vec x = 初始值 \\ \vec x^{k} = \vec x^{k} + \vec s \\ D \vec F(\vec x^{k}) \vec s = \vec F( \vec x^{k}), & k = 0, 1, 2, \dots \end{cases}$

拟牛顿法

牛顿法虽然收敛速度很快, 但是计算海森矩阵时计算量特别大.
由此演化出了拟牛顿法.
拟牛顿法是模拟牛顿法的意思, 并不是一种算法, 而是几种算法的总称, 这些算法包括DFP算法, BFGS算法, L-BFGS算法.

牛顿法中, 设 $g_k = \nabla f(x_{k})$ 为梯度向量, $H_{k} = \nabla ^{2}f(x_{k})$ 为海森矩阵.
拟牛顿法是对 $H_{k}$ 或者 $H_{k}^{-1}$ 取近似值, 从而减少计算量.
记 $B \approx H$ , $D \approx H^{-1}$ , $y_{k} = g_{k+1} - g_{k}$ , $s_{k}=x_{k+1} - x_{k}$

根据拟牛顿法条件, 可得到近似公式:

B k + 1 = y k s k

$\begin{align} B_{k+1} = {y_{k} \over s_{k}} \end{align}$

或

D k + 1 = s k y k

$\begin{align} D_{k+1} = {s_{k} \over y_{k}} \end{align}$

下面是几种拟牛顿法:

DFP算法

DFP算法采用的是 $D$ ，但并不直接计算 $D$ ，而是计算每一步 $D$ 的增量 $\bigtriangleup D$ 来间接的求出 $D$ 。这也是很多优化算法的做法，因为一般上一步的中间结果对下一步的计算仍有价值，若直接抛弃重新计算耗时耗力耗内存，重新发明了轮子。

D k + 1 = D k + △ D k

$\begin{align} D_{k+1} = D_{k} + \triangle D_{k} \end{align}$

$D_{0}$ 通常取单位矩阵 $I$ ，关键导出每一步的 $\triangle D_{k}$ 。
通过一系列艰苦而又卓绝的推导计算假设取便，最终的导出结果为：

△ D k = s k s T k s T k y k - D k y k y T k D k y T k D k y k

$\begin{align} \triangle D_{k} = {s_{k} s_{k}^{T} \over s^{T}_{k} y_{k}} - {D_{k}y_{k}y_{k}^{T}D_{k} \over y_{k}^{T} D_{k}y_{k}} \end{align}$

BFGS算法

BFGS算法与DFP算法类似，只是采用的 $B$ 来近似 $H$ 。最终的公式为：

△ B k = y k y T k y T k x k - B k s k s T k B k s T k B k s k

$\begin{align} \triangle B_{k} = {y_{k}y_{k}^{T} \over y_{k}^{T}x_{k}} - {B_{k}s_{k}s_{k}^{T}B_{k} \over s_{k}^{T}B_{k}s_{k}} \end{align}$

L-BFGS算法

L-BFGS算法对BFGS算法进行改进，不再存储矩阵 $D_{k}$ ，因为 $D_{k}$ 有时候比较大，计算机的肚子盛不下。
但是我们用到 $D_{k}$ 的时候怎么办呢？答案是根据公式求出来。

从上面的算法推导可知， $D_{k}$ 只跟 $D_{0}$ 和序列 $\{ s_{k} \}$ 和 $\{ y_{k} \}$ 有关。
即我们知道了后者，即可以求得前者。
进一步近似，我们只需要序列 ${s_{k}}$ 和 ${y_{k}}$ 的最近m个值即可。
这样说来，我们的计算机内存中只需要存储这两个序列即可.