牛顿判别式的矩阵证明

本文探讨了牛顿判别式在矩阵代数学中的应用,通过矩阵的幂的迹与特征值的关系,展示了如何利用Cayley-Hamilton定理来证明牛顿判别式。文章对比了以往的证明方法,提出了一种对学习线性代数的学生更加友好的证明过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

牛顿判别式的矩阵证明

Dan Kalman    1999.08.16

 

    牛顿判别式联系一个多项式系数与多项式的根的幂的和。他们通常在对称函数的讨论中被遇到(看[ 4 , 9 ]):一个多项式的系数是根的对称函数, 它是那些根的k次幂的和。

    牛顿判别式也在矩阵代数学的上下文有很自然的表述, 一个矩阵的k次幂的迹在此是特征值的k次幂的和。在这个情况下,牛顿判别式能作为 Cayley-Hamilton 定理的简单的后果被导出。给出那推导是这篇文章的目的。

    对于牛顿判别式有许多的推测在以前的文章中。Berlekamp 的推导[2]使用构造函数的方法是简短并且漂亮的,并且给出一个很有趣的参数[7]使用一个新奇的标志。在另一条途径[1],Baker 使用差分获得不错的递归。Eidswick 的推导([3]) 使用相关的对数的差分的应用。所有的这些证明是基本的并且可理解的,但是他们包含的操作或概念可能使他们有一点难于理解对学生。相反的是, 这里的证明方法将对大部分学习线性代数的学生乐意接受的。

    有趣地, 牛顿判别式的矩阵解释在线性的代数学文献中是常见的, 即提供一计算一个矩阵的特征多项式以矩阵([1,8])的幂的迹。然而, 使用矩阵导出牛顿判别式似乎不是众所周知的。

    令有根。定义

牛顿判别式为

现在令C是一个的特征多项式为p的矩阵。例如,C可以为

p ([6])的伴随矩阵。那么p的根就是C的特征值,并且更通常的有,p的根的k次幂是的特征值。因此, 我们观察到是的迹, 记为tr()。一个矩阵的迹是斜对角线的和和特征值的和。

 

现在,牛顿判别式变成了

既然迹的函数是线性的,我们可以重新记为

或者

这样,k > n的情况很快地从 Cayley-Hamilton 定理继承过来, 也就是说p(C) = 0。

对于 , 牛顿判别式的迹就是

也可记为

为了以后将是清楚的一些原因, 我们进行稍微修改,便成了

他的判别式也可以由 Cayley-Hamilton 定理导出。为了简化标记,定义一个多项式的顺序

所以判别式变为

记满足递归

同样记(C)= q ( C ) = 0,所以最后的递归就是

现在应该对那些施行了假想的合成的都熟悉;他们确实是系数当出现p (x)被x - C([5])划分时,。并且因为p(C) = 0 , 这导致因式分解对于矩阵是有效的:

这里的代数正是与合成的除法中出现的一样,并且因式分解容易对q使用递归关系被验证。

 

在一些地方我们将要把迹引入这个方程。不幸的是, 迹没有很好的联系到矩阵乘积, 因此消除前面的方程的左边( xI - C)因子是必要的。幸好, 只要 x 不是C的一个特征值, 我们知道( xI - C )是非奇异的, 于是我们有

两边求迹有

为了完成证明,我们接着将说明等式的右边不是别的,就是,那么就有

就是我们想要的。

所以,考虑。注意到,我们可以等价的写为。即有

任何矩阵的迹都是它的特征值的和(其重数与特征多项式中一样),并且的特征值简单的就是这些分式,有

很明显的可以看出这就是导数(利用),证毕。

参考书目:

[1] George A. Baker, Jr. A New Derivation of Newton's Identities and Their Application to

the Calculation of the Eigenvalues of a Matrix. Journal of the Society for Industrial and

Applied Mathematics, 7(2):143 { 148, June 1959.

[2] Elwyn R. Berlekamp. Algebraic Coding Theory Revised 1984 Edition, page 212. Aegean

Park Press, Laguna Hills, CA, 1984.

[3] J. A. Eidswick. A Proof of Newton's Power Sum Formulas. American Mathematical Monthly,

75(4):396 { 397, April 1968.

[4] I. N. Herstein. Topics in Algebra, page 208. Ginn, Waltham, MA, 1964.

[5] Dan Kalman. An extension of the Remainder Theorem. Delta. 8(1):77 { 80, 1978

[6] David C. Lay. Linear Algebra and Its Applications, 2nd ed., page 365. Addison-Wesley,

Reading, MA, 1997.

[7] D. G. Mead. Newton's Identities. American Mathematical Monthly, 99(8):749 { 751, October

1992.

[8] D. W. Robinson. A Matrix Application of Newton's Identities. American Mathematical

Monthly, 68(4):367 { 369, April 1961.

[9] B. L. van der Waerden. Algebra, volume 1, page 101. Frederick Ungar, New York, 1970.

4

<think>嗯,用户让我介绍一下海塞矩阵。首先,我需要回忆一下海塞矩阵的定义和相关概念。海塞矩阵应该和多元函数的二阶导数有关,对吧?对的,它是一个由二阶偏导数组成的矩阵。那具体是怎么构造的呢?比如说,对于一个二元函数,海塞矩阵应该是一个2x2的矩阵,里面的元素是四个二阶偏导数。不过要注意的是,如果函数满足一定的连续条件,那么混合偏导数是相等的,这时候矩阵会是对称的。 接下来,我得考虑用户可能的背景。他们可能是学习数学、优化或者机器学习的学生,需要了解海塞矩阵的应用。比如在优化中,海塞矩阵可以用来判断临界点的性质,是极大值、极小值还是鞍点。这时候需要联系到二次型的正定性,也就是正定、负定或者不定。这时候可能需要提到二阶导数测试,比如在单变量函数中的二阶导数测试推广到多变量情况。 还有,海塞矩阵牛顿法中的应用,牛顿法利用海塞矩阵来寻找函数的极值点,相比梯度下降法收敛更快,但计算和存储海塞矩阵可能成本较高,尤其是在高维情况下。这时候可能需要提到拟牛顿法,比如BFGS算法,它们通过近似海塞矩阵来减少计算量。 另外,海塞矩阵的特征值可以提供关于函数曲率的信息,最大的特征值对应最大曲率的方向,最小的则对应最小曲率。这在分析函数的局部行为时很有用。比如,在机器学习中,损失函数的曲率信息可以帮助优化算法调整步长,提高训练效率。 不过要注意的是,海塞矩阵的计算可能比较复杂,尤其是当函数有很多变量的时候。这时候符号计算工具或者自动微分技术可能会派上用场。比如在深度学习中,虽然直接计算海塞矩阵不太可行,但可以通过其他方法估计其近似值或者利用其性质。 还有,用户可能想知道海塞矩阵的数学表达式。这时候需要给出具体的例子,比如一个函数f(x,y),它的海塞矩阵应该包括f_xx, f_xy, f_yx, f_yy。然后说明在连续可导的情况下,f_xy = f_yx,所以矩阵是对称的。这时候可能需要用LaTeX公式来展示,按照用户的要求,行内公式用$...$,独立公式用$$...$$。 另外,可能还需要提到海塞矩阵的行列式,比如在二元函数中,判别式H = f_xx*f_yy - (f_xy)^2,用来判断极值的存在性。当H > 0且f_xx > 0时,是极小值点;H > 0且f_xx < 0时是极大值点;H < 0则是鞍点;H=0则无法判断。 不过,用户可能还会想知道海塞矩阵的几何意义。比如,它描述了函数在某个点的局部曲率,这在几何和物理中可能有应用,比如在分析曲面形状的时候。 总结一下,我需要分步骤介绍:定义、构造、性质(如对称性)、应用(优化中的极值判断、牛顿法)、几何意义、计算注意事项,以及可能的示例。同时,确保使用正确的中文术语,避免翻译腔,结构清晰,逐步展开,帮助用户全面理解海塞矩阵的概念和应用。</think>海塞矩阵(Hessian Matrix)是多元函数二阶偏导数构成的方阵,用于描述函数在一点处的曲率信息。它在优化、机器学习和数学分析中有重要应用。以下是详细介绍: --- ### 1. **定义** 设$f: \mathbb{R}^n \to \mathbb{R}$是一个二阶可微函数,其海塞矩阵$H$是一个$n \times n$的对称矩阵,元素为二阶偏导数: $$ H(f) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix} $$ **注**:若$f$的二阶混合偏导数连续(Clairaut定理),则$H$为对称矩阵。 --- ### 2. **核心作用** - **判断极值类型**: 在优化问题中,海塞矩阵的正定性用于判断临界点是极大值、极小值还是鞍点: - 正定 → 局部极小值 - 负定 → 局部极大值 - 不定 → 鞍点 - 半定 → 需更高阶导数判断 - **牛顿法优化**: 牛顿法利用海塞矩阵的逆更新参数,公式为: $$ x_{k+1} = x_k - H^{-1}(x_k) \nabla f(x_k) $$ 相比梯度下降法,收敛速度更快,但计算和存储$H$的成本较高。 - **曲率分析**: 海塞矩阵的特征值表示不同方向的曲率大小,特征向量对应曲率方向。 --- ### 3. **具体示例(二元函数)** 设$f(x, y) = x^3 + y^3 + 3xy$,计算其海塞矩阵: 1. 一阶偏导数: - $\frac{\partial f}{\partial x} = 3x^2 + 3y$ - $\frac{\partial f}{\partial y} = 3y^2 + 3x$ 2. 二阶偏导数: - $\frac{\partial^2 f}{\partial x^2} = 6x$ - $\frac{\partial^2 f}{\partial x \partial y} = 3$ - $\frac{\partial^2 f}{\partial y \partial x} = 3$ - $\frac{\partial^2 f}{\partial y^2} = 6y$ 3. 海塞矩阵: $$ H = \begin{bmatrix} 6x & 3 \\ 3 & 6y \end{bmatrix} $$ --- ### 4. **实际应用中的挑战** - **高维计算成本**: 变量数$n$较大时,计算和存储$H$的复杂度为$O(n^2)$,可能不现实。 - **拟牛顿法**: 通过BFGS等算法近似$H$,避免直接计算(如深度学习中的优化器)。 - **数值稳定性**: 海塞矩阵可能非正定,需修正(如Levenberg-Marquardt算法)。 --- ### 5. **扩展知识** - **判别式(二元函数)**: $\text{det}(H) = f_{xx}f_{yy} - (f_{xy})^2$,结合$f_{xx}$符号可判断极值。 - **黑塞-矩阵与凸性**: 若$H$在区域内半正定,则$f$为凸函数。 --- **总结**:海塞矩阵通过二阶导数揭示函数的局部几何特性,是优化算法和曲率分析的核心工具,但在高维问题中需结合近似方法提高效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值