Hessian海森矩阵与牛顿最优化方法

原创于 2016-04-03 09:42:34 发布 · 6.6k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

计算机数学专栏收录该内容

2 篇文章

订阅专栏

本文介绍了海森矩阵的概念，它是函数的二阶偏导数组成的方块矩阵。接着详细阐述了牛顿法解方程的原理和迭代公式，并解释了牛顿最优化方法如何通过求解函数的一阶导数为0来寻找极值点。最后，展示了多自变量情况下牛顿迭代公式的应用。

Hessian矩阵

在数学中, 海森矩阵(Hessian matrix或Hessian)是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵, 此函数如下：

$f({x_1},{x_2} \ldots ,{x_n})$

如果 $f$ 的所有二阶导数都存在, 那么 $f$ 的海森矩阵即：

$H{(f)_{ij}}(x) = {D_i}{D_j}f(x)$

其中 $x = ({x_1},{x_2} \ldots ,{x_n})$ , 即 $H(f)$ 为:

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 2 1 \partial 2 f \partial x 2 \partial x 1 ⋮ \partial 2 f \partial x n \partial x 1 \partial 2 f \partial x 1 \partial x 2 \partial 2 f \partial x 2 2 ⋮ \partial 2 f \partial x n \partial x 2 \dots \dots ⋱ \dots \partial 2 f \partial x 1 \partial x n \partial 2 f \partial x 2 \partial x n ⋮ \partial 2 f \partial x 2 n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} \\ \\ \frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}$

牛顿法解方程

在讲牛顿最优化方法之前，我们先来回顾一下计算方法中的牛顿法解方程，这其实是一个迭代的过程。

我们用牛顿法求解 $f(x) = 0$ 这个问题, 首先对将 $f(x)$ 在 $x^{(k)}$ 处做一阶泰勒展开，那么我们就会得到：

$f(x) = f({x^{(k)}}) + (x – {x^{(k)}})f'({x^{(k)}})$

因为 $f(x) = 0$ ，那么我们可以得到：

$0 = f({x^{(k)}}) + (x – {x^{(k)}})f’({x^{(k)}})$

解这个方程，我们可以得出：

${x} = {x^{(k)}} – f({x^{(k)}})/f’({x^{(k)}})$

那么这里迭代公式就是：

${x^{(k+1)}} = {x^{(k)}} – f({x^{(k)}})/f’({x^{(k)}})$

迭代的原理见下图，注意这里 $x^{(k)}$ 表示第k步迭代时的 $x$ 取值， $x^*$ 表示精确解，这个迭代过程就是不断逼近 $x^*$ 的过程，其实就是不断的用曲线的切线与x轴交点的横坐标来近似表达曲线与x轴交点的横坐标，所以牛顿法也叫切线法。

这里写图片描述

牛顿最优化方法

最优化的问题其实就是求解一个目标函数 $f(x)$ 的极大极小值问题。我们知道函数的极值点其实就是该函数一阶倒数为0的点，即求解方程 $f'(x)=0$ 的解，这可以通过刚刚提到的牛顿法求解方程组解决.

我们对 $f(x)$ 在 $x_k$ 处做二阶泰勒展开，那么我们会得到：

$f(x) = f(x^{(k)}) + f'(x^{(k)})(x-x^{(k)})+ \frac{1}{2}f''(x^{(k)})(x-x^{(k)})^2$

我们对 $f(x)$ 求导，可以得到：

$f'(x) = f'(x^{(k)})+ f''(x^{(k)})(x-x^{(k)})$

令 $f'(x)=0$ ，即可得到：

$0 = f'(x^{(k)})+ f''(x^{(k)})(x-x^{(k)})$

解方程，求得 $x$ 等于:

$x=x_k-\frac{f'(x^{(k)})}{f''(x^{(k)})}$

即，迭代格式为：

$x^{(k+1)}=x^{(k)}-\frac{f'(x^{(k)})}{f''(x^{(k)})}$

在上面讨论的是 $y=f(x)$ 这种只包含 $x$ 这1个自变量的情况, 多个自变量情况时的牛顿迭代公式是：

${x^{(k+1)}} = {x^{(k)}} - {[Hf({x^{(k)}})]^{ – 1}}\nabla f({x^{(k)}}),n \ge 0$

其中 $Hf({x^{(k)}})$ 即为Hessian矩阵， $\nabla f({x^{(k)}})$ 是一个向量，向量中的每个元素分别是 $f(x)$ 对各个自变量求偏导后的函数在 $x=x^{(k)}$ 时的函数值。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。