怎么理解二阶偏导与凸函数的Hessian矩阵是半正定的？

Hessian矩阵与凸函数

最新推荐文章于 2025-09-10 08:42:29 发布

转载最新推荐文章于 2025-09-10 08:42:29 发布 · 2.4w 阅读

math 专栏收录该内容

2 篇文章

订阅专栏

本文通过类比一元函数的二阶导数，解释了多元函数中Hessian矩阵的作用。详细阐述了Hessian矩阵半正定与凸函数之间的联系，并通过泰勒展开进一步说明其在极值判断中的应用。

作者：grapeot
链接：https://www.zhihu.com/question/40181086/answer/85197271
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

教科书上有严格的证明，这个答案试图通过类比来提供一些直观上的理解。大概的结论是，多元函数的Hessian矩阵就类似一元函数的二阶导。多元函数Hessian矩阵半正定就相当于一元函数二阶导非负，半负定就相当于一元函数二阶导非正。如果这个类比成立的话，凸函数的Hessian恒半正定就非常容易理解了——这是一元凸函数二阶导必非负的多元拓展。

至于为什么这个类是有道理的，你要这么看。对一元函数f(x)来说，就极值而言，一阶导为0是极值点的必要但不充分条件，一阶导为0切二阶导非负是极小值的充要条件。为什么呢，因为有泰勒展开 $f(x)=f(x_0)+f'(x_0)\cdot\text{d}x+\frac{1}{2}f''(x_0)\text{d}x^2$ 。如果一阶导为0，二阶导非负，dx不论是多少，f(x)一定不比f(x0)小。

你把多元函数也个泰勒展开，主要区别在于：
1) 二阶导变成了Hessian。
2) 以前只要考虑x怎么变，现在还要考虑y怎么变，x和y怎么一起变，头疼了很多。
以二元为例，
$f(\begin{bmatrix}x & y\end{bmatrix}) = f(\begin{bmatrix}x_0 & y_0\end{bmatrix}) + \begin{bmatrix}\text{d}x & \text{d}y\end{bmatrix} \cdot \begin{bmatrix}f_x' \\ f_y' \end{bmatrix}+ \frac{1}{2} \begin{bmatrix}\text{d}x & \text{d}y\end{bmatrix} \cdot \begin{bmatrix}f_{xx}' & f_{xy}' \\ f_{yx}' & f_{yy}' \end{bmatrix} \cdot \begin{bmatrix}\text{d}x \\ \text{d}y\end{bmatrix}$
从一元的情况类比过来，如果一阶导为0，是不是极小值完全取决于不同的dx, dy下，能不能做到最后一项一直非负。只有对于任意 $\Delta {\bf x}$ , $\Delta {\bf x} {\bf H} \Delta {\bf x}^T$ 一直非负的情况，我们才能说这是极小值。如果 $\Delta {\bf x} {\bf H} \Delta {\bf x}^T$ 一直非正，这就是极大值。如果它一会正一会负，就是鞍点。