怎么理解二阶偏导与凸函数的Hessian矩阵是半正定的?

本文通过类比一元函数的二阶导数,解释了多元函数中Hessian矩阵的作用。详细阐述了Hessian矩阵半正定与凸函数之间的联系,并通过泰勒展开进一步说明其在极值判断中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者:grapeot
链接:https://www.zhihu.com/question/40181086/answer/85197271
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

教科书上有严格的证明,这个答案试图通过类比来提供一些直观上的理解。大概的结论是,多元函数的Hessian矩阵就类似一元函数的二阶导。多元函数Hessian矩阵半正定就相当于一元函数二阶导非负,半负定就相当于一元函数二阶导非正。如果这个类比成立的话,凸函数的Hessian恒半正定就非常容易理解了——这是一元凸函数二阶导必非负的多元拓展。

至于为什么这个类是有道理的,你要这么看。对一元函数f(x)来说,就极值而言,一阶导为0是极值点的必要但不充分条件,一阶导为0切二阶导非负是极小值的充要条件。为什么呢,因为有泰勒展开f(x)=f(x_0)+f'(x_0)\cdot\text{d}x+\frac{1}{2}f''(x_0)\text{d}x^2。如果一阶导为0,二阶导非负,dx不论是多少,f(x)一定不比f(x0)小。

你把多元函数也个泰勒展开,主要区别在于:
1) 二阶导变成了Hessian。
2) 以前只要考虑x怎么变,现在还要考虑y怎么变,x和y怎么一起变,头疼了很多。
以二元为例,
f(\begin{bmatrix}x & y\end{bmatrix}) = f(\begin{bmatrix}x_0 & y_0\end{bmatrix}) + \begin{bmatrix}\text{d}x & \text{d}y\end{bmatrix} \cdot \begin{bmatrix}f_x' \\ f_y' \end{bmatrix}+ \frac{1}{2} \begin{bmatrix}\text{d}x & \text{d}y\end{bmatrix} \cdot \begin{bmatrix}f_{xx}' & f_{xy}' \\ f_{yx}' & f_{yy}' \end{bmatrix} \cdot \begin{bmatrix}\text{d}x \\ \text{d}y\end{bmatrix}
从一元的情况类比过来,如果一阶导为0,是不是极小值完全取决于不同的dx, dy下,能不能做到最后一项一直非负。只有对于任意\Delta {\bf x},\Delta {\bf x} {\bf H} \Delta {\bf x}^T 一直非负的情况,我们才能说这是极小值。如果\Delta {\bf x} {\bf H} \Delta {\bf x}^T一直非正,这就是极大值。如果它一会正一会负,就是鞍点。

然后“对于任意\Delta {\bf x},\Delta {\bf x} {\bf H} \Delta {\bf x}^T 一直非负”这是啥?半正定的定义嘛!它就是这么引出来的,也是我们为什么需要半正定这个概念的原因(之一)。

(为了突出直觉,我们假设函数有一些“良好”的性质,比如连续,可微等。)
<think>我们首先需要理解用户的问题:Hessian矩阵正定的定义及其在优化问题中的作用。 根据要求,我们将进行网络搜索,然后整合信息,生成答案。 搜索关键词:Hessian矩阵正定定义 优化作用 根据搜索,我们可以得到以下信息: 1. Hessian矩阵的定义:Hessian矩阵是一个多元函数二阶偏导数构成的方阵。对于函数 $f(x_1, x_2, \dots, x_n)$,其Hessian矩阵 $H$ 的元素为: $$ H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j} $$ 它是一个$n \times n$的对称矩阵(当二阶偏导数连续时)。 2. 正定的定义:一个对称矩阵$A$是正定的,如果对于任意非零向量$x$,都有 $x^T A x > 0$。 3. 在优化问题中的作用: - 在无约束优化问题中,临界点(梯度为零的点)的性质可以通过Hessian矩阵来判断。 - 如果Hessian矩阵在该点正定,则该临界点是局部极小值点。 - 如果Hessian矩阵负定,则该临界点是局部极大值点。 - 如果不定,则该临界点是鞍点。 4. 凸函数Hessian矩阵:如果一个函数Hessian矩阵在定义域内处处正定(即对于所有向量$x$,有$x^T A x \geq 0$),则该函数凸函数。如果处处正定,则函数严格凸的,此时若有极小值点则必是唯一的全局极小值点。 5. 在约束优化中,Hessian矩阵正定性也可以用于二阶充分条件。 根据以上信息,我们组织答案如下: 注意:按照要求,避免使用第一人称和步骤词汇,将答案组织为多个方法或步骤(这里我们分为定义和作用两部分),并在每个部分内换行分隔。 另外,需要严格按照格式要求书写公式。 答案结构: 第一部分:Hessian矩阵正定的定义 第二部分:Hessian矩阵正定在优化问题中的作用 最后,生成相关问题。 注意:在回答中不要出现引用标记,将搜索到的信息自然整合。</think>### Hessian矩阵正定的定义 Hessian矩阵是多元函数二阶偏导数构成的对称矩阵。对于函数 $f: \mathbb{R}^n \to \mathbb{R}$,其Hessian矩阵 $H$ 定义为: $$ H(f) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix} $$ **正定性**要求对任意非零向量 $\mathbf{v} \in \mathbb{R}^n$,满足二次型恒正: $$ \mathbf{v}^T H \mathbf{v} > 0 $$ 等价条件包括: - 所有特征值均为正数 - 各阶顺序主子式行列式为正(Sylvester准则) --- ### 在优化问题中的作用 **1. 局部极小值的二阶充分条件** 若函数 $f$ 在临界点 $\mathbf{x}^*$(梯度 $\nabla f(\mathbf{x}^*) = 0$)处Hessian正定,则 $\mathbf{x}^*$ 是严格局部极小值点。 **2. 凸性判定** $f$ 是严格凸函数的充要条件是其Hessian在定义域内处处正定。凸性保证局部极小值即全局极小值。 **3. 优化算法收敛性** 牛顿法等二阶算法依赖Hessian求迭代步长: $$ \mathbf{x}_{k+1} = \mathbf{x}_k - H^{-1}(\mathbf{x}_k) \nabla f(\mathbf{x}_k) $$ Hessian正定确保迭代方向朝向函数值下降区域。 **4. 信赖域算法稳定性** 近似问题 $\min_{\mathbf{d}} f(\mathbf{x}) + \nabla f(\mathbf{x})^T \mathbf{d} + \frac{1}{2} \mathbf{d}^T H \mathbf{d}$ 的解要求 $H$ 正定,否则需修正(如添加正则项)。 **示例代码验证正定性(Python)** ```python import numpy as np from scipy.linalg import eigh def is_positive_definite(matrix): eigenvalues, _ = eigh(matrix) return np.all(eigenvalues > 0) # 测试矩阵正定) H = np.array([[2, -1], [-1, 2]]) print("Is positive definite?", is_positive_definite(H)) # 输出: True ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值