牛顿法与Hessian矩阵

牛顿法原理与应用

最新推荐文章于 2025-10-13 18:09:10 发布

原创最新推荐文章于 2025-10-13 18:09:10 发布 · 3.8w 阅读

139 ·

CC 4.0 BY-SA版权

文章标签：

#牛顿法 #Hessian矩阵 #雅可比矩阵 #最小二乘法 #非线性优化

数学同时被 2 个专栏收录

40 篇文章

订阅专栏

机器学习 | 计算机视觉

37 篇文章

订阅专栏

本文介绍了牛顿法的基本原理及其在求解方程根和非线性最优化问题中的应用。通过一阶和二阶泰勒展开公式，详细解释了牛顿法迭代求解的过程，并探讨了其在多变量问题上的扩展，包括Hessian矩阵的作用及拟牛顿法等改进方案。

牛顿法 主要有两方面的应用：

1. 求方程的根；

2. 求解最优化方法；

一. 为什么要用牛顿法求方程的根？

问题很多，牛顿法是什么？目前还没有讲清楚，没关系，先直观理解为 牛顿法是一种迭代求解方法（Newton童鞋定义的方法）。

假设 f(x) = 0 为待求解方程，利用传统方法求解，牛顿法求解方程的公式：

f(x0+Δx) = f(x0) + f′(x0) Δx

即 f(x) = f(x0) + f′(x0) (x-x0)

公式可能大家会比较熟悉，一阶泰勒展式，f′(a) 表示 f(x) 在 x0 点的斜率（这个很好理解），当X方向增量（Δx）比较小时，Y方向增量（Δy）可以近似表示为斜率（导数）*X方向增量（f′(x0) Δx），令 f(x) = 0，我们能够得到迭代公式：

x = x0 - f(x0) / f′(x0) => xn+1 = xn - f(xn) / f′(n)

通过逐次迭代，牛顿法将逐步逼近最优值，也就是方程的解。

二. 扩展到最优化问题

这里的最优化是指非线性最优化，解非线性最优化的方法有很多，比如梯度下降法、共轭梯度法、变尺度法和步长加速法等，这里我们只讲 牛顿法。

针对上面问题进行扩展：

解决 f(x) = 0 的问题，我们用了一阶泰勒展开：

f(x) = f(x0) + f'(x0)*(x-x0) + o( (x-x0)^2 )

去掉末位高阶展开项，代入x = x0+Δx，得到：

f(x) = f(x0+Δx) = f(x0) + f′(x0) Δx

那么要解决 f′(x) = 0 的问题，我们就需要二阶泰勒展开：

f(x) = f(x0) + f'(x0)*(x-x0) + 0.5*f''(x0)*(x-x0)^2 + o( (x-x0)^3 )

去掉末位高阶展开项，代入x = x0+Δx，得到：

f(x) = f(x0+Δx) = f(x0) + f′(x0)Δx + 0.5 * f′′(x0) (Δx)^2

求导计算： f′(x) = f'(x0+Δx) = 0，得到：

[ f(x0) + f′(x0)(x−x0) + 0.5 f′′(x0)(x−x0)^2 ]′ = 0

整理：

f′(x0) + f′′(x0)(x−x0) = 0

x = x0 − f′(x0) / f′′(x0) => xn+1 = xn - f'(xn) / f'′(xn)

牛顿法 一图总结为：

三. 牛顿法与 Hessian矩阵的关系

以上牛顿法的推导是针对 单变量问题，对于多变量的情况，牛顿法 演变为：

与上面的单变量表示方式类似，需要用到变量的 一阶导数和二阶导数。

其中 J 定义为 雅克比矩阵，对应一阶偏导数。

H 为 Hessian矩阵，对应二阶偏导数。

网上也能搜到类似的公式表达，也列出来：

牛顿法在多变量问题上仍然适用迭代求解，但Hessian矩阵的引入增加了复杂性，特别是当：

▪ Hessian 矩阵非正定（非凸）导致无法收敛；

▪ Hessian 矩阵维度过大带来巨大的计算量。

针对这个问题，在牛顿法无法有效执行的情况下，提出了很多改进方法，比如 拟牛顿法（Quasi-Newton Methods）可以看作是牛顿法的近似。

拟牛顿法 只需要用到一阶导数，不需要计算Hessian矩阵以及逆矩阵，因此能够更快收敛，关于 拟牛顿法 这里不再具体展开，也有更深入的 DFP、BFGS、L-BFGS等算法，大家可以自行搜索学习。

总体来讲，拟牛顿法都是用来解决牛顿法本身的复杂计算、难以收敛、局部最小值等问题。

13 条评论

睫力上爬 2020.08.24
想请教一下，H矩阵为什么可以用JJ^T来近似
- 小黄鸭一梦回复睫力上爬 2022.04.17
  不一样的好吧，简单的看一维情况，两个一阶导数相乘能得到二阶导吗？

Mr Green 2020.05.14
不错，讲得十分清晰

hbdongfeng 2018.12.19
赞

hbdongfeng 2018.12.19
赞

midori_27 2018.12.18
请问下Xn+1 = Xn - H^(-1)*J ,请问Xn、H、J分别都是几维的，我感觉不能理解
- Dtouch_回复midori_27 2023.01.07
  请问解决了吗，我也有一样的疑惑

ALEXch2333 2018.09.15
原理的部分，不一定非得利用泰勒展开来解释吧，直接利用斜率设切线函数y=kx+b然后求解，比泰勒展开更加浅显易懂。

昊86 2018.05.22
问个问题啊：如下原文：去掉末位高阶展开项，代入x = x0+Δx，得到： f(x) = f(x0+Δx) = f(x0) + f′(x0)Δx + 0.5 * f′′(x0) (Δx)^2 求导计算： f′(x) = f'(x0+Δx) = 0，得到： [ f(x0) + f′(x0)(x−x0) + 0.5 f′′(x0)(x−x0)^2 ]′ = 0 -----这是怎么得到的呀？看起来是让f(x)=0变换得到的呀。整理： f′(x0) + f′′(x0)(x−x0) = 0 这个又是怎样整理得到的？谢谢啊。
- ReLuJie回复昊86 2018.10.22
  [reply]u010758237[/reply] 是这样，一般而言，牛顿法有两个用途：1.求解方程f(x) = 0的根；2.求解最优化问题min_x f(x) 或者 max_x f(x). 如果是求解方程f(x) = 0的根，将f(x_n)在x_(n-1)处进行Taylor1阶展开并置零，然后解出x_n = x_(n-1) - f(x_(n-1))/f'(x_(n-1)); 如果是求解最优化问题：min_x f(x) 或者 max_x f(x)，一般而言，由于最优解(如果f(x)为凸函数，否则只能保证是局部最优解）往往出现在函数的一阶导为0的地方，所以将f(x_n)在x_(n-1)处进行Taylor2阶展开：f(x_n) = f(x_(n-1)) + f'(x_(n-1))(x_n - x_(n-1)) + 1/2*f''(x_(n-1))(x_n - x_(n-1))^2,两边关于x_n求导并置零，得到 f'(x_(n-1))+ f''(x_(n-1))(x_n - x_(n-1)) = 0,于是有迭代公式：x_n = x_(n-1) - f‘(x_(n-1))/f'’(x_(n-1))。
- 昊86回复zhang_csdn 2018.09.06
  [reply]zhang_csdn[/reply] 谢谢，我理解了，之前没有注意到中括号后面还有一个撇（求导），所以逻辑没有通过去。现在ok了。 [ f(x0) + f′(x0)(x−x0) + 0.5 f′′(x0)(x−x0)^2 ]′ = 0 另外，什么时候需要计算f'(x)=0 呢也就是后半段讲的内容。解方程，我知道的都是令f(x)=0来计算x的值的，能否提示一下什么情况下计算f'(x)=0 ，是计算极值的时候吧？
- zhang_csdn回复昊86 2018.08.31
  [reply]u010758237[/reply] 如果f(X)的一阶泰勒展开式求导，得到的就只是f'(x0),和x无关。用f(X)的二阶泰勒展开式求导，得到 f′(x0) + f′′(x0)(x−x0) = 0。这里要注意x0不是变量，那么f(x0)也不是变量，至少x的变化不影响f(x0)的值，即f(x0)关于x的导数为0。