第十一章条件随机场.11.2 拟牛顿法

最新推荐文章于 2025-10-31 15:07:33 发布

原创最新推荐文章于 2025-10-31 15:07:33 发布 · 327 阅读

0 ·

CC 4.0 BY-SA版权

统计学习方法专栏收录该内容

36 篇文章

订阅专栏

本文介绍了牛顿法和拟牛顿法这两种用于求解无约束最优化问题的算法。牛顿法利用二阶导数加速收敛，但计算海森矩阵较复杂。拟牛顿法则通过近似海森矩阵的逆来简化计算，包括DFP和BFGS两种方法。这两种方法在实际优化问题中具有速度快的优点。

文章目录

牛顿法
拟牛顿法
小结

本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考：在线Latex公式

牛顿法

这个方法用得到了二阶导数，它比梯度下降法（一阶导）收敛速度快。
它的思想是在 $x^{(k)}$ 处用泰勒把 $f (x)$ 进行二阶展开，也就是用一个二阶函数去逼近 $f (x)$ ，然后求使这个二阶函数的导数为0的点（ $\bigtriangledown f(x)=0$ ），然后用 $\bigtriangledown f(x)$ 一步步迭代逼近 $f (x)$ 的最小。

对于一个无约束最优化问题 $\underset{x\in \R^n}{\min}f(x)$
假设 $f (x)$ 具有二阶连续偏导数，通过迭代方法寻找最优点 $x$ ，即 $x^{(1)}\rightarrow x^{(2)}\rightarrow\cdots \rightarrow x^{(k)}\rightarrow x^{(k+1)}\rightarrow\cdots$
在 $x^{(k)}$ 处对 $f (x)$ 进行二阶泰勒展开：
$f(x)=f(x^{(k)})+\bigtriangledown f(x^{(k)})^T(x-x^{(k)})+\cfrac{1}{2}(x-x^{(k)})^TH(x^{(k)})(x-x^{(k)})$
这里 $H(x)=\left[\cfrac{\partial^2f}{\partial x_i\partial x_j}\right]_{n\times n}$ 是 $f (x)$ 的海森矩阵（其实就是二阶导数），如果用 $g$ 表示 $f$ 一阶导数，并对上面的式子两边求导，左边就是 $\bigtriangledown f(x)$ ，如果有极值，那么 $\bigtriangledown f(x)=0$ ，写成：
$g_k+H_k(x-x^{(k)})=0$
这里 $H_k=H(x^{(k)})$
具体的从 $x^{(k+1)}$ 这个点开始求极值，则有：
$\bigtriangledown f(x^{(k+1)})=0$
根据上上式：
$g_k+H_k(x^{(k+1)}-x^{(k)})=0$
然后求解，先移项
$H_k(x^{(k+1)}-x^{(k)})=-g_k$
这里是 $H$ 是矩阵，所以两边同时乘以它的逆矩阵：
$x^{(k+1)}-x^{(k)}=-g_kH_k^{-1}$
移项：
$x^{(k+1)}=x^{(k)}-g_kH_k^{-1}$
这里要求解 $H_k^{-1}$ ，比较麻烦，因此出现了下面这个方法。

拟牛顿法

用上面的条件可以有以下等式：
$\bigtriangledown f(x^{(k+1)})=0=g_{k+1}=g_k+H_k(x^{(k+1)}-x^{(k)})$
$g_{k+1}-g_k=H_k(x^{(k+1)}-x^{(k)})$
令 $y_k=g_{k+1}-g_k,\delta_k=x^{(k+1)}-x^{(k)}$ ，则有：
$y_k=H_k\delta_k$
$\delta_k=H_k^{-1}y_k$
以上就是拟牛顿条件。
接下来就是有两种方法求 $G$ （用来近似 $H_k^{-1}$ ）：DFP和BFGS
不展开。