【机器学习杂记】牛顿法与拟牛顿法

最新推荐文章于 2023-03-25 18:35:45 发布

原创最新推荐文章于 2023-03-25 18:35:45 发布 · 273 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #深度学习 #人工智能 #python

Machine Learning 专栏收录该内容

16 篇文章

订阅专栏

本文深入探讨了牛顿法及其在最优化问题中的应用，同时介绍了拟牛顿法作为牛顿法的一种改进，解决了高维情况下计算Hesse矩阵的复杂性问题。

1.牛顿法

牛顿法可以用来解方程或者解决最优化问题。二者的本质是一样的。
假设我们要求解如下最优化问题：
$min⁡x∈Rnf(x)\min_{x\in R^n } f(x)$
注意 $x∈Rnx\in R^n$ ，直接讨论多维的情形。
为了便于理解，假设 $f (x)$ 是二元函数，则其在 $x^{(0)} = (x_1^{(0)},x_2^{(0)})^T$ 处的泰勒展开为
在这里插入图片描述
其中 $Δx1=x1−x1(0)\Delta x_1=x_1-x_1^{(0)}$ , $Δx2=x2−x2(0)\Delta x_2=x_2-x_2^{(0)}$ .
如果写成矩阵形式：

同理，对于多维的情况，如果我们令
$H(x)=[∂2f∂xi∂xj]n×nH(x)=[\frac{\partial^2f}{\partial x_i \partial x_j}]_{n\times n}$
则假设 $f (x)$ 具有二阶连续偏导数，其在 $x^{(k)}$ 处的二阶泰勒展开可表示为
$f(x)=f(x(k))+gkT(x−x(k))+12(x−x(k))TH(x(k))(x−x(k))f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^TH(x^{(k)})(x-x^{(k)})$
其中 $H(x^{(k)})$ 称作Hesse矩阵， $gkT=(∂f∂x1,…,∂f∂xn)∣x(k)g_k^T=(\frac{\partial f}{\partial x_1},\dots , \frac{\partial f}{\partial x_n})|_{x^{(k)}}$ ，即 $f (x)$ 的梯度向量在 $x^{(k)}$ 处的值。
当 $x$ 是极小点时，必有
$∇f(x)=0\nabla f(x)=0$
因此最优化问题仍然是解方程问题，这就是为何开头说最优化和解方程本质上是一样的。
假设第k次迭代过程从 $x^{(k)}$ 开始，求目标函数的极小点。作为第 $k + 1$ 次迭代值 $x^{(k+1)}$ ，假设其满足：
$∇f(x(k+1))=0\nabla f(x^{(k+1)})=0$
根据 $f (x)$ 的泰勒展开式，得其梯度(可以看成是对向量 $x$ 求导):
$∇f(x)=gk+H(x(k))(x−x(k))\nabla f(x)=g_k +H(x^{(k)}) (x-x^{(k)})$
于是有
$g_k +H(x^{(k)}) (x^{(k+1)}-x^{(k)})=0$
$x^{(k+1)}=x^{(k)}-H^{-1}(x^{(k)})g_k$
以上式作为迭代公式的方法就是牛顿法。
但是有的时候求Hesse矩阵很复杂，尤其是高维的情形，于是又引出了拟牛顿法。

2.拟牛顿法

前面说计算Hasse矩阵的逆矩阵非常复杂，所以考虑用一个n阶矩阵 $G(x^{(k)})$ 来代替 $H^{-1}(x^{(k)})$ .
前面推导出下式：
$∇f(x)=gk+H(x(k))(x−x(k))\nabla f(x)=g_k +H(x^{(k)}) (x-x^{(k)})$
令其中的 $x=x^{(k+1)}$ ,得
$∇f(x(k+1))=gk+1=gk+H(x(k))(x(k+1)−x(k))\nabla f(x^{(k+1)})=g_{k+1}=g_k +H(x^{(k)}) (x^{(k+1)}-x^{(k)})$
即
$g_{k+1}-g_k =H(x^{(k)}) (x^{(k+1)}-x^{(k)})$
令 $yk=gk+1−gk,δk=x(k+1)−x(k)y_k=g_{k+1}-g_k,\delta _k=x^{(k+1)}-x^{(k)}$ ,则
$yk=Hkδky_k=H_k\delta _k$
或
$δk=Hk−1yk\delta _k=H_k^{-1}y_k$
因此我们要找近似的 $G_k$ 时，也必须满足上式的条件，即：
$δk=Gk−1yk\delta _k=G_k^{-1}y_k$
因此在拟牛顿法中每次迭代中可以更新矩阵：
$Gk+1=Gk+ΔGkG_{k+1}=G_k+\Delta G_k$
至于如何具体地实现更新，又有了许多算法，例如DFP、BFGS、Broyden类算法等，有时间我再学习更新。