线性代数及其应用：第六章正定矩阵与奇异值分解

最新推荐文章于 2025-12-06 22:14:54 发布

原创最新推荐文章于 2025-12-06 22:14:54 发布 · 6.5k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#正定矩阵 #奇异值分解 #合同变换 #SVD #伪逆

线性代数及其应用专栏收录该内容

7 篇文章

订阅专栏

本文深入探讨正定矩阵的性质，包括实对称矩阵的正定充要条件和分解方法。此外，介绍了惯性定理及其应用，并详细阐述了奇异值分解（SVD）的概念、求解方法及在求解线性方程组中的应用，尤其是SVD在求解最短最简单误差最小解中的作用。

文章目录

正定矩阵

前言：这篇blog是《 Linear Algebra and Its Applications》第六章的一些学习笔记。

正定矩阵

这一章要用到对实对称矩阵 $A$ 的三角分解 $A=LDL^{T}$ ，以及谱定理 $A=Q\Lambda Q^{T}$

1. 正定矩阵

对任意非零实向量 $x$ ，有 $x^{T}Ax>0$ ，则 $A$ 为正定矩阵。

在线性代数中，正定矩阵是对称矩阵，因为来自二次型；对任一二次型，总可以写成对称矩阵的形式，即 $f(x_{1}, x_{2}\dots x_{n})=x^{T}Ax=\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}a_{ij}x_{i}x_{j}$

如果 $A$ 是正定矩阵，则 $x^{T}Ax$ 表示的二次型有最小值，不存在鞍点。

但在矩阵论中，正定矩阵不一定是对称矩阵，例如 $\left [ \begin{matrix} 1 & -1 \\ 1 & 0\end{matrix}\right ]$

1.1. 实对称矩阵是正定矩阵的充要条件

判断实对称矩阵 $A$ 是否为正定矩阵，有5个充要条件，只要满足其中一个即可。

$x^{T}Ax>0$ ，对所有非零实向量 $x$ 均成立；
$A$ 的所有特征值 $\lambda_{i}$ 满足 $\lambda_{i}>0$ ；
所有顺序主子式 $A_{k}$ 是正的；
所有主元(piovts)大于0(最快捷条件)；
$A$ 能分解成 $R^{T}R$ ，其中R的列向量相互独立。

证明：

条件1：定义，证毕。

条件2 $\Longleftrightarrow$ 条件1：对 $A$ 进行分解， $A=Q\Lambda Q^{T}$ ，有 $x^{T}Ax=x^{T}Q\Lambda Q^{T}x$ ，令 $x^{T}Q=y^{T}$ ，则 $x^{T}Ax=y^{T}\Lambda y=\sum\limits_{i=1}^{n}\lambda_{i}y_{i}^{2}$ ，根据条件1，如果实对称矩阵 $A$ 是正定矩阵，则任意非零向量 $x$ ， $x^{T}Ax$ 恒大于0，所以 $\sum\limits_{i=1}^{n}\lambda_{i}y_{i}^{2}$ 恒大于0，所以 $\lambda_{i}>0$ ，证毕。

条件1和2 $\Longrightarrow$ 条件3：对于实对称矩阵 $A$ ，以证明 $A_{3}$ 为例，令 $x=[x_{1}, x_{2},x_{3},0,0,0,\dots]^{T}$ ，则 $x^{T}Ax$ 等价于 $[x_{1},x_{2},x_{3}]\left [ \begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{matrix} \right ]\left [ \begin{matrix} x_{1} \\ x_{2} \\ x_{3}\end{matrix} \right ]\tag{1}$

根据条件1，如果实对称矩阵 $A$ 是正定矩阵，则 $x^{T}Ax>0$ ，所以(1)的中间矩阵也应该是正定矩阵，根据条件2，(1)的中间矩阵的所有特征值大于0，所以 $A_{3}=(1)的中间矩阵的所有特征值乘积>0$ 证毕。方阵的行列式等于所有特征值乘积，在第五章特征值与特征向量中推导过这一结论。

条件3 $\Longrightarrow$ 条件4：以 $d_{3}$ 为例， $d_{3}=\frac{A_{3}}{A_{2}}>0$ ，证毕。关于求 $d_{3}$ 用的表达式，在第四章行列式中推导过。

条件4 $\Longrightarrow$ 条件1，对 $A$ 进行三角分解 $A=LDL^{T}$ ，则 $x^{T}Ax=x^{T}LDL^{T}x$ ，令 $y=L^{T}x$ ，则 $x^{T}Ax=y^{T}Dy$ ，对角矩阵 $D$ 存的是 $A$ 的主元(pivots)，所以 $y^{T}Dy=\sum\limits_{i=1}^{n}d_{i}y_{i}^{2}>0$ 可以推出 $x^{T}Ax>0$

至此，条件1-4相互均可以推导。

条件5 $\Longleftrightarrow$ 条件4： $A=LDL^{T}=(L\sqrt{D})(\sqrt{D}L^{T})=R^{T}R$ ，其中 $R=\sqrt{D}L^{T}$ ；或者条件5 $\Longleftrightarrow$ 条件2： $A=Q\Lambda Q^{T}=(Q\sqrt{\Lambda})(\sqrt{\Lambda}Q^{T})=R^{T}R$ ，其中 $R=\sqrt{\Lambda}Q^{T}$

1.2. 实对称矩阵是半正定矩阵的充要条件

半正定矩阵就是对任意非零实向量 $x$ ，有 $x^{T}Ax\geq0$ ，相对正定矩阵多了等于0；相应的充要条件也加上了等号。

$x^{T}Ax\geq0$ ，对所有非零实向量；
$A$ 的所有特征值 $\lambda_{i}$ 满足 $\lambda_{i}\geq0$ ；
所有顺序主子式 $A_{k}$ 是 $\geq 0$ 的；
所有主元 $\geq 0$ (最快捷条件)；
$A$ 能分解成 $R^{T}R$ ，其中R的列向量相互独立。

证明：考虑 $A+\varepsilon I$ 正定，当 $\varepsilon > 0$ 。

1.3. 实对称矩阵与正定矩阵的分解

实对称矩阵不一定可以三角分解 $A=LDL^{T}$ ，但可以 $A=Q\Lambda Q^{T}$ 分解，正定矩阵两种分解都可以。

$A=LDL^{T}$ 与 $A=Q\Lambda Q^{T}$ 本质上都是二次型配方。

2. 惯性定理

2.1. 合同变换

对于对称方阵 $A, B$ ，存在可逆矩阵 $C$ ，使得 $B=C^{T}AC$ ，则 $A, B$ 相合。合同变换本质上是对实对称矩阵的分类(上一章提到过，相似变换本质上是对方阵的分类)。

2.2. 惯性定理

对于一个n阶实对称矩阵 $A$ ，与它合同的实对称矩阵有多个，这些实对角矩阵的对角元中，正数的个数是一定的(叫A的正惯性指数)，负数的个数也是一定的(叫A的负惯性指数)。

证明略。

实际使用时，如果 $A$ 是对称方阵，用三角分解 $A=LDL^{T}$ 即可，因为 $A,D,\Lambda$ 三者相合。

2.3. 惯性定理的推论

任何一个实对称矩阵可以相合到由若干1，若干-1，若干0组成的对角矩阵，即由相合条件约束的某一类实对称矩阵均可相合到该对角矩阵。

证明：
对实对称矩阵 $A$ 进行分解 $A=Q\Lambda Q^{T}$ ，所以 $A$ 与 $\Lambda$ 相合，不妨设 $\Lambda$ 中 $\lambda_{1}\dots\lambda_{m}$ 是正特征根， $\lambda_{m+1}\dots\lambda_{i}$ 是负特征根， $\lambda_{i+1}\dots\lambda_{n}$ 是零特征根，则 $\begin{aligned} \Lambda & =\left [ \begin{matrix} \lambda_{1} &&&&&& \\ &\ddots &&&&& \\ &&\lambda_{m}&&&& \\ &&&\ddots &&& \\ &&&&\lambda_{i}&& \\ &&&&&\ddots& \\ &&&&&&\lambda_{n} \end{matrix} \right ] \\ & = \left [ \begin{matrix} \frac{1}{\sqrt{\lambda_{1}}} &&&&&& \\ &\ddots &&&&& \\ && \frac{1}{\sqrt{\lambda_{m}}}&&&& \\ &&&\ddots &&& \\ &&&& \frac{1}{\sqrt{-\lambda_{i}}}&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \times \\ & \left [ \begin{matrix} 1 &&&&&& \\ &\ddots &&&&& \\ && 1&&&& \\ &&&\ddots &&& \\ &&&& -1&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \times \left [ \begin{matrix} \frac{1}{\sqrt{\lambda_{1}}} &&&&&& \\ &\ddots &&&&& \\ && \frac{1}{\sqrt{\lambda_{m}}}&&&& \\ &&&\ddots &&& \\ &&&& \frac{1}{\sqrt{-\lambda_{i}}}&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \\ & = C^{T}BC \end{aligned}$

故 $\Lambda$ 与 $B$ 相合，故 $A$ 与 $B$ 相合。证毕。

2.4. 惯性定理的应用

通过 $A - n I$ 限定实对称矩阵 $A$ 的特征根区间，例如： $A - 3 I$ 有2正特征根， $A - 5 I$ 只有1个正特征根，则 $A$ 有一个特征根在(3,5)之间。

这里用到了 $A - n I$ 的特征值，相对于 $A$ 的特征值也减去n的推论，证明如下：

$Ax=\lambda x, (A-3I)x = \lambda' x$

所以

$(\lambda'+3) x$

所以 $\lambda'=\lambda-3$

3. 奇异值分解

3.1. SVD

对矩阵 $A_{m\times n}$ ，其秩 $r = r a n k (A)$ ，则其奇异值分解(Singular Value Decomposition, SVD)表示为 $A=U\Sigma V=(正交矩阵)_{m\times m}(对角矩阵)_{m\times n}(正交矩阵)_{n\times n}$

其中 $U$ 的列向量由 $AA^{T}$ 的特征向量构成； $V$ 的列向量由 $A^{T}A$ 的特征向量构成； $\Sigma$ 的对角元素的前r个被称为奇异值，是 $AA^{T}$ 或者 $A^{T}A$ 的特征值平方根，其余元素为0。

证明依赖于谱定理，在有了求对称方阵特征根高效算法后，才有了SVD。

证明：
证明分六步进行

$A^{T}A$ 一定是对称方阵
又 $A^{T}Ax=\lambda x$ ，左乘上 $x^{T}$
$x^{T}A^{T}Ax = \lambda x^{T}x = (Ax)^{T}Ax \geq 0$
故 $\lambda \geq 0$
故 $A^{T}A$ 至少是半正定矩阵
由谱定理 $\begin{aligned} A^{T}A & = V \left [ \begin{matrix} \sigma_{1}^{2}&&&&& \\ &\ddots&&&& \\ &&\sigma_{r}^{2}&&& \\ &&&0&& \\ &&&&\ddots& \\ &&&&& 0 \end{matrix}\right ]V^{T} \\ & = [v_{1}, v_{2}\dots v_{n}] \left [ \begin{matrix} \sigma_{1}^{2}&&&&& \\ &\ddots&&&& \\ &&\sigma_{r}^{2}&&& \\ &&&0&& \\ &&&&\ddots& \\ &&&&& 0 \end{matrix}\right ] \left [ \begin{matrix} v_{1}^{T}\\ v_{2}^{T}\\ \vdots \\ v_{n}^{T}\ \end{matrix}\right ] \end{aligned}$
其中 $1\leq i \leq r$ 时， $\sigma_{i}>0$ ，当 $\leq n$ 时， $\sigma_{i}=0$ 。
所以， $A^{T}Av_{i}=\sigma^{2}_{i}v_{i}, 0\leq i \leq r$
由于 $||Av_{i}||^{2}=(Av_{i})^{T}(Av_{i})=v_{i}^{T}A^{T}Av_{i}=v_{i}^{T}\sigma^{2}_{i}v_{i}=\sigma^{2}_{i}$
故 $||Av_{i}||=\sigma_{i}$
令 $u_{i}=\frac{Av_{i}}{\sigma_{i}},1\leq i \leq r$
则 $u_{i}$ 是 $A$ 的列空间的单位向量。对于 $i\neq j$ 有 $Av_{i}=u_{i}\sigma_{i} \\ Av_{j}=u_{j}\sigma_{j}$ 则 $(Av_{i})^{T}Av_{j}=\sigma_{i}\sigma_{j}u_{i}^{T}u_{j}$
左边 $=v^{T}_{i}A^{T}Av_{j}=v_{i}^{T}\sigma^{2}_{j}v_{j}=0=\sigma_{i}\sigma_{j}u_{i}^{T}u_{j}=$ 右边
由于 $\sigma_{i},\sigma_{j}\neq 0$ ，则 $u_{i}^{T}u_{j}=0$
故 $u_{1},u_{2}\dots u_{r}$ 相互正交，是 $A$ 的列空间的标准正交基。
扩充 $u_{1},u_{2}\dots u_{r}$ 到 $u_{1},u_{2}\dots u_{r},u_{r+1}\dots u_{m}$ 为 $R^{m}$ 的标准正交基，则
$u_{1},u_{2}\dots u_{r}$ 是 $A$ 列空间 $C (A)$ 的标准正交基；
$u_{r+1},u_{r+2}\dots u_{m}$ 是 $A$ 左零空间 $N(A^{T})$ 的标准正交基；
逐列来看
$1\leq i \leq r$ 时， $\sigma_{i}>0$ ， $Av_{i}=u_{i}\sigma_{i}$ ；
$\leq n$ 时， $\sigma_{i}=0$ ， $Av_{i}=0=u_{i}·0$ 。
故 $AV=U\Sigma$ ，所以 $A=U\Sigma V^{T}$

3.2. SVD的本质

逐列来看 $AU=\Sigma V$ ， $1\leq i \leq r$ 时， $\sigma_{i}>0$ ， $Av_{i}=u_{i}\sigma_{i}$ ； $\leq n$ 时， $\sigma_{i}=0$ ， $Av_{i}=0=u_{i}·0$ 。则
$u_{1},u_{2}\dots u_{r}$ 是 $A$ 列空间 $C (A)$ 的标准正交基；
$u_{r+1},u_{r+2}\dots u_{m}$ 是 $A$ 左零空间 $N(A^{T})$ 的标准正交基；
$v_{r+1},v_{r+2}\dots v_{n}$ 是 $A$ 零空间 $N (A)$ 的标准正交基；
$v_{1},v_{2}\dots v_{r}$ 是 $A$ 行空间 $C(A^{T})$ 的标准正交基；

可见，SVD是 $C(A^{T})$ 到 $C (A)$ 的极简极优美映射，当 $1\leq i \leq r$
$A[v_{1}\dots v_{r}]=[u_{1}\dots u_{r}]\left [ \begin{matrix} \sigma_{1}&& \\ &\ddots& \\ &&\sigma_{r} \end{matrix}\right ]$ 即两个子空间标准正交基的极简极优美变换。

3.3. 求SVD

求 $A^{T}A$ 的 $\sigma, v$ ，注意实对称矩阵属于不同特征根的特征向量正交；
由 $Av_{i}=u_{i}\sigma_{i}$ 求出 $u_{i}$ ；
有Gram-Schmidt求 $u_{r+1}\dots u_{m}$ 。

可见SVD的结果严重不唯一，但是奇异值是唯一的。

3.4. SVD的应用-伪逆

求解线性方程组 $A_{m\times n}x=b$

当 $b$ 在 $C (A)$ ，由第二章，利用高斯消去法，解方程，就和我们解多元一次方程组一样；
当 $b$ 不再 $C (A)$ ，且 $A$ 列满秩，则 $R^{n}$ 就是 $C(A^{T})$ ，利用第三章的最小二乘法，把 $b$ 向 $C (A)$ 投影，在把这个投影点反向映射到 $C(A^{T})$ ，得到误差最小的解；
$A^{T}(A\widehat{x}-b)=0 \Longrightarrow \widehat{x}=(A^{T}A)^{-1}A^{T}b$
当 $b$ 不再 $C (A)$ ，且A列不满秩， $dim(R^{n})=dim(C(A^{T}))+dim(N(A))$ ， $R^{n}$ 相对于 $C(A^{T})$ 与 $N (A)$ 是更高维，把 $b$ 向 $C (A)$ 投影，在把这个投影点反映射到 $C(A^{T})$ 得到反向映射点，这个反向映射点加上 $N (A)$ 中任意一个点都是误差最小解，此时最小二乘法得到的误差最小解不唯一，我们可以利用伪逆求得最短最简单的误差最小解，也就是反向映射点加上 $N (A)$ 中的全零点。

伪逆利用SVD定义，如果 $A=U\Sigma V^{T}$ ，则A的伪逆定义为 $A^{+}=V\Sigma^{+} U^{T}$
其中 $\Sigma^{+}$ 表示对 $\Sigma$ 进行转置后，奇异值取倒数。

则 $A x = b$ 的最短最简单误差最小解就是 $x^{+}=A^{+}b$ $A^{+}b$ 的意义是把 $b$ 投影到 $C (A)$ 中，在映射到 $C(A^{T})$ 。

下面是伪逆求解最短最简单的误差最小解的证明。

先证明 $A$ 是对角阵的情况，以 $A_{3\times 4}, r(A)=2$ 为例，求最短最简单的误差最小解 $\widehat{x}$
当 $b\in C(A)$ 有
$\left [ \begin{matrix} \sigma_{1} & 0 & 0 & 0 \\ 0 & \sigma_{2} & 0 & 0 \\ 0 & 0 & 0 & 0 \end{matrix}\right ] \left [ \begin{matrix} \widehat{x}_{1} \\ \widehat{x}_{2} \\ \widehat{x}_{3} \\ \widehat{x}_{4} \end{matrix}\right ] =\left [ \begin{matrix} b_{1} \\ b_{2} \\ 0 \end{matrix}\right ]$ 则 $\widehat{x}_{1}=\frac{b_{1}}{\sigma_{1}}$ ， $\widehat{x}_{2}=\frac{b_{2}}{\sigma_{2}}$
定义伪逆
$A^{+}=\left [ \begin{matrix} \frac{1}{\sigma_{1}} & 0 & 0 \\ 0 & \frac{1}{\sigma_{2}} & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}\right ]$
则 $\widehat{x}=A^{+}\left [ \begin{matrix} b_{1} \\ b_{2} \\ 0 \end{matrix}\right ]$ 得到最短最简单的误差最小解。
当 $b\notin C(A)$ 时， $b=\left [ \begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}\right]$ ，仍按照上面的伪逆，仍然可以求得最短解，同时也是误差最小的解 $\widehat{x}=A^{+}\left [ \begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}\right ]=\left [ \begin{matrix} \frac{b_{1}}{\sigma_{1}} \\ \frac{b_{2}}{\sigma_{2}} \\ 0 \\ 0 \end{matrix}\right ]$
如果A不是对角阵，则我们可以化成对角阵的形式，回到我们的根本目的，利用最小二乘法的想法求误差最小解，最小化 $∣ ∣ A x - b ∣ ∣$ ，则 $\begin{aligned} ||Ax-b|| & =||U\Sigma V^{T}x-b|| \\ & = ||U(\Sigma V^{T}x-U^{T}b)|| \\ & = ||\Sigma V^{T}x-U^{T}b|| \end{aligned}$ 最后一个等号转换用到了，正交变换不改变长度的性质。令 $y=V^{T}x$ ，则 $x = V y$ ，进一步化简 $\begin{aligned} ||Ax-b|| & = ||\Sigma V^{T}x-U^{T}b|| \\ & = ||\Sigma y-U^{T}b|| \end{aligned}$ 此时 $\Sigma$ 是对角矩阵，回到了情况1，我们得到 $y$ 的最短最简单的误差最小解是 $y^{+}=\Sigma^{+}U^{T}b$ 由于 $x = V y$ 同样是正交变换，不改变长度，进而得到 $x$ 的最短最简单的误差最小解是 $x^{+}=Vy^{+}=V\Sigma^{+}U^{T}b$ 证毕。