一、对称矩阵的性质
可以毫不夸张的说,对称矩阵 SSS 是世界上所能看到的最重要的矩阵 —— 不仅在线性代数理论也是在实际应用中。关于对称矩阵的关键问题,这个问题有两部分答案:当 S 是对称矩阵时,Sx=λx 有什么特殊的?\pmb{当\,S\,是对称矩阵时,S\boldsymbol x=\lambda\boldsymbol x\,有什么特殊的?}当S是对称矩阵时,Sx=λx有什么特殊的?当 S=STS=S^TS=ST 时,我们寻找特征值 λ\lambdaλ 和特征向量 x\boldsymbol xx 的特殊性质。对角化 S=XΛX−1S=X\Lambda X^{-1}S=XΛX−1 会反映出 SSS 的对称性,我们取转置 ST=(X−1)TΛXTS^T=(X^{-1})^T\Lambda X^TST=(X−1)TΛXT,由于 S=STS=S^TS=ST,所以这些是一样的。那么可以猜测第一种形式的 X−1X^{-1}X−1 可能等于第二种形式中的 XTX^TXT,就会有 XTX=IX^TX=IXTX=I,此时 XXX 中的每个特征向量和另外的特征向量正交。有以下两个事实:
1、对称矩阵只有实数特征值。
2、特征向量可以选成标准正交的向量。
这 nnn 个标准正交的特征向量进到 XXX 的列,则每个对称矩阵都可以对角化。对称矩阵的特征向量矩阵 XXX 变成了一个正交矩阵 QQQ。正交矩阵有 Q−1=QTQ^{-1}=Q^TQ−1=QT,我们猜测的特征向量矩阵的性质是正确的。注意当我们选择标准正交的特征向量时,此时用 QQQ 替代了 XXX。
为什么是说 “选择” 呢?这是因为特征向量并不一定是单位向量,我们可以处理它的长度,这里我们选择单位向量 —— 长度为一的特征向量,它们标准正交而不仅仅是正交向量。则 A=XΛX−1A=X\Lambda X^{-1}A=XΛX−1 在对称矩阵这种特殊情况下有特殊形式 S=QΛQ−1S=Q\Lambda Q^{-1}S=QΛQ−1。
(Spectral Theorem 谱定理) 每个对称矩阵都可以分解成 S=QΛQTS=Q\Lambda Q^TS=QΛQT,Λ\LambdaΛ 中是实数特征值,QQQ 的列是标准正交的特征向量:对称对角化(Symmetric diagonalization)S=QΛQT,且 Q−1=QT(6.4.1)\pmb{对称对角化(\textrm{Symmetric\,diagonalization})}\kern 10pt{\color{blue}S=Q\Lambda Q^T,且\,Q^{-1}=Q^T}\kern 8pt(6.4.1)对称对角化(Symmetricdiagonalization)S=QΛQT,且Q−1=QT(6.4.1)
很容易就可以看出 QΛQTQ\Lambda Q^TQΛQT 是对称的,取转置,可以得到 (QT)TΛTQT(Q^T)^T\Lambda^TQ^T(QT)TΛTQT,也就是 QΛQTQ\Lambda Q^TQΛQT。比较困难的是要证明每个对称矩阵都是实数特征值 λ′s\lambda'sλ′s 和标准正交的特征向量 x′s\boldsymbol x'sx′s。这就是数学上的 “谱定理” 和几何和物理上的 “主轴定理(principal axis theorem)”。下面要证明它!会用三步来说明:
- 通过一个例子来展示 Λ\LambdaΛ 中的实数特征值 λ′s\lambda'sλ′s 和 QQQ 中的标准正交的特征向量 x′s\boldsymbol x'sx′s.
- 当没有重复的特征值时,证明这些事实。
- 允许有重复的特征值时的证明。(本节的最后)
【例1】当 S=[1224]S=\begin{bmatrix}1&2\\2&4\end{bmatrix}S=[1224] 和 S−λI=[1−λ224−λ]S-\lambda I=\begin{bmatrix}1-\lambda&2\\2&4-\lambda\end{bmatrix}S−λI=[1−λ224−λ] 时,求 λ′s\lambda'sλ′s 和 x′s\boldsymbol x'sx′s.
解: S−λIS-\lambda IS−λI 的行列式是 λ2−5λ\lambda^2-5\lambdaλ2−5λ,则特征值是 000 和 555,它们都是实数。我们也可以直接看出特征值:由于 SSS 是奇异的,所以 λ=0\lambda=0λ=0 是一个特征值,由矩阵的迹可以得到 λ=5\lambda=5λ=5 是另一个特征值:0+50+50+5 等于 1+41+41+4.
两个特征向量是 (2,−1)(2,-1)(2,−1) 和 (1,2)(1,2)(1,2) —— 正交但还不是标准正交,λ=0\lambda=0λ=0 时的特征向量在 SSS 的零空间,λ=5\lambda=5λ=5 时的特征向量在列空间。那么这里为什么零空间和列空间垂直呢?基本定理说的是零空间垂直于行空间 —— 不是列空间,但是我们的矩阵是对称的!它的行空间和列空间一样,它的特征向量 (2,−1)(2,-1)(2,−1) 和 (1,2)(1,2)(1,2) 也一定垂直,这里也确实是垂直的。
这两个特征向量的长度都是 5\sqrt55,都除以 5\sqrt55 就得到了单位向量,将这些单位向量放进 QQQ 的列中,则 Q−1SQQ^{-1}SQQ−1SQ 就是 Λ\LambdaΛ,且 Q−1=QTQ^{-1}=Q^TQ−1=QT:Q−1SQ=15[2−112][1224]15[21−12]=[0005]=ΛQ^{-1}SQ=\frac{1}{\sqrt5}\begin{bmatrix}2&-1\\1&\kern 7pt2\end{bmatrix}\begin{bmatrix}1&2\\2&4\end{bmatrix}\frac{1}{\sqrt5}\begin{bmatrix}\kern 7pt2&1\\-1&2\end{bmatrix}=\begin{bmatrix}0&0\\0&5\end{bmatrix}=\LambdaQ−1SQ=51[21−12][1224]51[2−112]=[0005]=Λ现在讨论 n×nn\times nn×n 的情况,当 S=STS=S^TS=ST 且 Sx=λxS\boldsymbol x=\lambda\boldsymbol xSx=λx 时 λ′s\lambda'sλ′s 都是实数。
实数特征值 \kern 5pt实对称矩阵的所有特征值都是实数。
证明: 假设 Sx=λxS\boldsymbol x=\lambda\boldsymbol xSx=λx,到目前为止我们知道,λ\lambdaλ 可能是一个复数 a+iba+iba+ib(aaa 和 bbb)是实数,它的共轭复数是 λˉ=a−ib\bar\lambda=a-ibλˉ=a−ib,相似的,x\boldsymbol xx 的分量也可能是复数,改变虚部的符号得到 xˉ\bar{\boldsymbol x}xˉ.
好事是 λˉ\bar\lambdaλˉ 乘 xˉ\bar{\boldsymbol x}xˉ 总是 λ\lambdaλ 乘 x\boldsymbol xx 的共轭,所以我们取 Sx=λxS\boldsymbol x=\lambda\boldsymbol xSx=λx,记住 SSS 是实数:Sx=λx得到Sxˉ=λˉxˉ.转置得xˉTS=xˉTλˉS\boldsymbol x=\lambda\boldsymbol x\kern 5pt得到\kern 5ptS\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}.\kern 15pt转置得\kern 5pt\bar{\boldsymbol x}^TS=\bar{\boldsymbol x}^T\bar\lambdaSx=λx得到Sxˉ=λˉxˉ.转置得xˉTS=xˉTλˉ现在取第一个方程与 xˉ\bar{\boldsymbol x}xˉ 的点积和最后一个方程与 x\boldsymbol xx 的点积:xˉTSx=xˉTλx和xˉTSx=xˉTλˉx(6.4.2)\bar{\boldsymbol x}^TS\boldsymbol x=\bar{\boldsymbol x}^T\lambda\boldsymbol x\kern 15pt和\kern 15pt\bar{\boldsymbol x}^TS\boldsymbol x=\bar{\boldsymbol x}^T\bar\lambda\boldsymbol x\kern 20pt(6.4.2)xˉTSx=xˉTλx和xˉTSx=xˉTλˉx(6.4.2)左侧的是一样的,所以右侧相等,一个方程是 λ\lambdaλ,另一个是 λˉ\bar\lambdaλˉ. 乘积 xˉTx=∣x1∣2+∣x2∣2+⋯=长度的平方\bar{\boldsymbol x}^T\boldsymbol x=|x_1|^2+|x_2|^2+\cdots=长度的平方xˉTx=∣x1∣2+∣x2∣2+⋯=长度的平方,这一项不为零。因此 λ\lambdaλ 一定等于 λˉ\bar\lambdaλˉ,且 a+iba+iba+ib 等于 a−iba-iba−ib,所以 b=0b=0b=0 且 λ=a=实数\lambda=a=实数λ=a=实数。证毕!
特征向量是求解实数方程 (S−λI)x=0(S-\lambda I)\boldsymbol x=\boldsymbol 0(S−λI)x=0 得到的,所以 x′s\boldsymbol x'sx′s 也是实数。重要的事实是它们是垂直的。
正交特征向量 \kern 5pt实对称矩阵的特征向量(对应于不同的 λ′s\lambda'sλ′s)永远垂直。
证明: 假设 Sx=λ1xS\boldsymbol x=\lambda_1\boldsymbol xSx=λ1x,Sy=λ2yS\boldsymbol y=\lambda_2\boldsymbol ySy=λ2y,这里假设 λ1≠λ2\lambda_1\neq\lambda_2λ1=λ2,第一个方程取与 y\boldsymbol yy 的点积,第二个方程取与 x\boldsymbol xx 的点积:使用 ST=S(λ1x)Ty=(Sx)Ty=xTSTy=xTSy=xTλ2y(6.4.3)\pmb{使用}\,S^T=S\kern 15pt(\lambda_1\boldsymbol x)^T\boldsymbol y=(S\boldsymbol x)^T\boldsymbol y=\boldsymbol x^TS^T\boldsymbol y=\boldsymbol x^TS\boldsymbol y=\boldsymbol x^T\lambda_2\boldsymbol y\kern 14pt(6.4.3)使用ST=S(λ1x)Ty=(Sx)Ty=xTSTy=xTSy=xTλ2y(6.4.3)左边是 xTλ1y\boldsymbol x^T\lambda_1\boldsymbol yxTλ1y,右边是 xTλ2y\boldsymbol x^T\lambda_2\boldsymbol yxTλ2y,由于 λ1≠λ2\lambda_1\neq\lambda_2λ1=λ2,所以有 xTy=0\boldsymbol x^T\boldsymbol y=0xTy=0,所以 λ1\lambda_1λ1 对应的特征向量 x\boldsymbol xx 垂直于 λ2\lambda_2λ2 对应的特征向量 y\boldsymbol yy.
【例2】2×22\times22×2 对称矩阵的特征向量有一个特殊形式 :不太广为人知的S=[abbc]有x1=[bλ1−a]和x2=[λ2−cb](6.4.4)\pmb{不太广为人知的}\kern 15ptS=\begin{bmatrix}a&b\\b&c\end{bmatrix}\kern 5pt有\kern 5pt\boldsymbol x_1=\begin{bmatrix}b\\\lambda_1-a\end{bmatrix}\kern 5pt和\kern 5pt\boldsymbol x_2=\begin{bmatrix}\lambda_2-c\\b\end{bmatrix}\kern 15pt(6.4.4)不太广为人知的S=[abbc]有x1=[bλ1−a]和x2=[λ2−cb](6.4.4)这个重点是 x1\boldsymbol x_1x1 和 x2\boldsymbol x_2x2 垂直:x1Tx2=b(λ2−c)+(λ1−a)b=b(λ1+λ2−a−c)=0\boldsymbol x_1^T\boldsymbol x_2=b(\lambda_2-c)+(\lambda_1-a)b=b(\lambda_1+\lambda_2-a-c)=0x1Tx2=b(λ2−c)+(λ1−a)b=b(λ1+λ2−a−c)=0因为 λ1+λ2\lambda_1+\lambda_2λ1+λ2 等于迹 a+ca+ca+c,所以结果为零,则 x1Tx2=0\boldsymbol x_1^T\boldsymbol x_2=0x1Tx2=0。你可能会注意到特殊的情况 S=IS=IS=I,此时 b、λ1−a、λ2−cb、\lambda_1-a、\lambda_2-cb、λ1−a、λ2−c 和 x1、x2\boldsymbol x_1、\boldsymbol x_2x1、x2 都是零,这是因为 λ1=λ2\lambda_1=\lambda_2λ1=λ2 是重复的特征值。当然 S=IS=IS=I 也有垂直的特征向量。对称矩阵 S 有标准正交的特征向量矩阵 Q. 再看一下:对称S=XΛX−1变成S=QΛQT且QTQ=I这个说明任意的 2×2 矩阵是 (旋转)(拉伸)(旋转回来)S=QΛQT=[q1q2 ][λ1λ2][q1T q2T](6.4.5)列 q1 和 q2 乘行 λ1q1T 和 λ2q2T 得到 S=λ1q1q1T+λ2q2q2T\boxed{\begin{array}{c}\pmb{对称矩阵\,S\,有标准正交的特征向量矩阵\,Q.}\,再看一下:\\\color{blue}对称\kern 10ptS=X\Lambda X^{-1}\kern 5pt变成\kern 5ptS=Q\Lambda Q^T\kern 5pt且\kern 5ptQ^TQ=I\\这个说明任意的\,2\times2\,矩阵是\,\pmb{(旋转)(拉伸)(旋转回来)}\\S=Q\Lambda Q^T=\begin{bmatrix}\\\boldsymbol q_1&\boldsymbol q_2\\\,\end{bmatrix}\begin{bmatrix}\lambda_1\\&\lambda_2\end{bmatrix}\begin{bmatrix}\boldsymbol q_1^T\\\,\\\boldsymbol q_2^T\end{bmatrix}\kern 15pt(6.4.5)\\\pmb{列\,\boldsymbol q_1\,和\,\boldsymbol q_2\,乘行\,\lambda_1\boldsymbol q_1^T\,和\,\lambda_2\boldsymbol q_2^T\,得到\,S=\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T}\end{array}}对称矩阵S有标准正交的特征向量矩阵Q.再看一下:对称S=XΛX−1变成S=QΛQT且QTQ=I这个说明任意的2×2矩阵是(旋转)(拉伸)(旋转回来)S=QΛQT=q1q2[λ1λ2]q1Tq2T(6.4.5)列q1和q2乘行λ1q1T和λ2q2T得到S=λ1q1q1T+λ2q2q2T
每个对称矩阵S=QΛQT=λ1q1q1T+λ2q2q2T+⋯+λnqnqnT(6.4.6){\color{blue}{\pmb{每个对称矩阵}\kern 90ptS=Q\Lambda Q^T=\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T+\cdots+\lambda_n\boldsymbol q_n\boldsymbol q_n^T}}\kern 25pt(6.4.6)每个对称矩阵S=QΛQT=λ1q1q1T+λ2q2q2T+⋯+λnqnqnT(6.4.6)
这些伟大结果的步骤(谱定理):
- 将 Axi=λixiA\boldsymbol x_i=\lambda_i\boldsymbol x_iAxi=λixi 写成矩阵形式AX=XΛ 或 A=XΛX−1\kern 20ptAX=X\Lambda\,或\,A=X\Lambda X^{-1}AX=XΛ或A=XΛX−1
- 标准正交 xi=qi\boldsymbol x_i=\boldsymbol q_ixi=qi 使得 X=QS=QΛQ−1=QΛQTX=Q\kern 15ptS=Q\Lambda Q^{-1}=Q\Lambda Q^TX=QS=QΛQ−1=QΛQT
方程(6.4.6)中的 QΛQTQ\Lambda Q^TQΛQT 的列是 QΛQ\LambdaQΛ 乘行 QTQ^TQT,下面是直接的证明:
S 有正确的特征向量,这些 q′s 标准正交Sqi=(λ1q1q1T+λ2q2q2T+⋯+λnqnqnT)qi=λiqi(6.4.7)\pmb{S\,有正确的特征向量,这些\,\boldsymbol q's\,标准正交}\kern 20ptS\boldsymbol q_i=(\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T+\cdots+\lambda_n\boldsymbol q_n\boldsymbol q_n^T)\boldsymbol q_i=\lambda_i\boldsymbol q_i\kern 15pt(6.4.7)S有正确的特征向量,这些q′s标准正交Sqi=(λ1q1q1T+λ2q2q2T+⋯+λnqnqnT)qi=λiqi(6.4.7)
二、实数矩阵的复数特征值
对于任意的实数矩阵,由 Ax=λxA\boldsymbol x=\lambda\boldsymbol xAx=λx 得到 Axˉ=λˉxˉA\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}Axˉ=λˉxˉ,若是对称矩阵 Sx=λxS\boldsymbol x=\lambda\boldsymbol xSx=λx 得到 Sxˉ=λˉxˉS\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}Sxˉ=λˉxˉ,λ\lambdaλ 和 x\boldsymbol xx 都是实数,则这两个方程是一样的。但是非对称矩阵会很容易有复数的 λ\lambdaλ 和 x\boldsymbol xx,则 Axˉ=λˉxˉA\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}Axˉ=λˉxˉ 就与 Ax=λxA\boldsymbol x=\lambda\boldsymbol xAx=λx 不再相同,我么得到了另一个复数特征值(就是 λˉ\bar\lambdaλˉ)和一个新的特征向量(就是 xˉ\bar{\boldsymbol x}xˉ):
对于实数矩阵,复数 λ′s 和 x′s 都是以 “共轭对(conjugate pairs)” 形式出现的。λ=a+ibλˉ=a−ib如果 Ax=λx 则 Axˉ=λˉxˉ(6.4.8)\pmb{对于实数矩阵,复数\,\lambda's\,和\,\boldsymbol x's\,都是以\,“共轭对(\textrm{conjugate\,pairs})”\,形式出现的。}\\\begin{matrix}\lambda=a+ib\\\bar{\lambda}=a-ib\end{matrix}\kern 15pt{\color{blue}如果\,A\boldsymbol x=\lambda\boldsymbol x\,则\,A\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}}\kern 20pt(6.4.8)对于实数矩阵,复数λ′s和x′s都是以“共轭对(conjugatepairs)”形式出现的。λ=a+ibλˉ=a−ib如果Ax=λx则Axˉ=λˉxˉ(6.4.8)
【例3】A=[cosθ−sinθsinθcosθ]A=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}A=[cosθsinθ−sinθcosθ] 的特征值是 λ1=cosθ+isinθ\lambda_1=\cos\theta+i\sin\thetaλ1=cosθ+isinθ 和 λ2=cosθ−isinθ\lambda_2=\cos\theta-i\sin\thetaλ2=cosθ−isinθ.
这些特征值都是另一个的共轭,它们分别是 λ\lambdaλ 和 λˉ\bar{\lambda}λˉ,由于 AAA 是实数矩阵,所以特征向量一定是 x\boldsymbol xx 和 xˉ\bar{\boldsymbol x}xˉ:这是 λxAx=[cosθ−sinθsinθcosθ][1−i]=(cosθ+isinθ)[1−i]这是 λˉxˉAxˉ=[cosθ−sinθsinθcosθ][1i]=(cosθ−isinθ)[1i](6.4.9)\begin{array}{ll}这是\,\lambda\boldsymbol x&A\boldsymbol x=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}\begin{bmatrix}\kern 7pt1\\-i\end{bmatrix}=(\cos\theta+i\sin\theta)\begin{bmatrix}\kern 7pt1\\-i\end{bmatrix}\\\\这是\,\bar\lambda\bar{\boldsymbol x}&A\bar{\boldsymbol x}=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}\begin{bmatrix}1\\i\end{bmatrix}=(\cos\theta-i\sin\theta)\begin{bmatrix}1\\i\end{bmatrix}\end{array}\kern 13pt(6.4.9)这是λx这是λˉxˉAx=[cosθsinθ−sinθcosθ][1−i]=(cosθ+isinθ)[1−i]Axˉ=[cosθsinθ−sinθcosθ][1i]=(cosθ−isinθ)[1i](6.4.9)由于 AAA 是实矩阵,所以这些特征向量 (1,−i)(1,-i)(1,−i) 和 (1,i)(1,i)(1,i) 是共轭复数。
这个旋转矩阵特征值的绝对值是 ∣λ∣=1|\lambda|=1∣λ∣=1,因为 cos2θ+sin2θ=1\cos^2\theta+\sin^2\theta=1cos2θ+sin2θ=1。事实上,每一个正交矩阵 QQQ 都有特征值 ∣λ∣=1|\lambda|=1∣λ∣=1.
三、特征值对比主元
AAA 的特征值和主元是不一样的,对于特征值,我们是求解 det(A−λI)=0\det(A-\lambda I)=0det(A−λI)=0;对于主元,我们使用消元法。目前来说它们的唯一联系是:主元的乘积=行列式=特征值的乘积\pmb{主元的乘积=行列式=特征值的乘积}主元的乘积=行列式=特征值的乘积假设有一整套主元 d1,d2,⋯ ,dnd_1,d_2,\cdots,d_nd1,d2,⋯,dn,nnn 个实数特征值 λ1,λ2,⋯ ,λn\lambda_1,\lambda_2,\cdots,\lambda_nλ1,λ2,⋯,λn,这些 d′sd'sd′s 和 λ′s\lambda'sλ′s 是不一样的,但是如果它们来自相同的对称矩阵,这些 d′sd'sd′s 和 λ′s\lambda'sλ′s 就有一个隐藏的关系。对称矩阵的主元和特征值有相同的符号:S=ST 正特征值的个数等于它正主元的个数。特殊情况:S 所有的 λi>0 当且仅当所有的主元都是正数。{\color{blue}S=S^T\,正特征值的个数等于它正主元的个数。}\\特殊情况:S\,所有的\,\lambda_i>0\,当且仅当所有的主元都是正数。S=ST正特征值的个数等于它正主元的个数。特殊情况:S所有的λi>0当且仅当所有的主元都是正数。这种特殊情况就是正定矩阵(positive definite matrices) 最重要的事实。
【例4】下面这个对称矩阵有一个正特征值和正主元:符号匹配S=[1331]有主元 1 和−8特征值 4 和−2\pmb{符号匹配}\kern 20ptS=\begin{bmatrix}1&3\\3&1\end{bmatrix}\kern 10pt\begin{array}{l}有主元\,1\,和-8\\特征值\,4\,和-2\end{array}符号匹配S=[1331]有主元1和−8特征值4和−2主元的符号和特征值的符号是匹配的,一个正号一个负号。当矩阵不是对称矩阵时,这个结论可能是错误的:相反符号B=[16−1−4]有主元 1 和 2特征值−1 和−2\pmb{相反符号}\kern 20ptB=\begin{bmatrix}\kern 7pt1&\kern 7pt6\\-1&-4\end{bmatrix}\kern 10pt\begin{array}{l}有主元\,1\,和\,2\\特征值-1\,和-2\end{array}相反符号B=[1−16−4]有主元1和2特征值−1和−2下面是当 S=ST 时,主元和特征值有相同符号的证明。\color{blue}下面是当\,S=S^T\,时,主元和特征值有相同符号的证明。下面是当S=ST时,主元和特征值有相同符号的证明。当主元从 UUU 的行使用除法提取出来时可以看的比较清晰,此时 SSS 就是 LDLTLDL^TLDLT,对角主元矩阵 DDD 在两个三角矩阵 LLL 和 LTL^TLT 之间:[1331]=[1031][1−8][1301]这是 S=LDLT,它是对称的。注意当 L 变换到 I 时, LDLT 的特征值。S 变成了 D。\begin{bmatrix}1&3\\3&1\end{bmatrix}=\begin{bmatrix}1&0\\\pmb3&1\end{bmatrix}\begin{bmatrix}1\\&-8\end{bmatrix}\begin{bmatrix}1&\pmb3\\0&1\end{bmatrix}\kern 10pt\pmb{这是}\,S=LDL^T,\pmb{它是对称的}。\\\color{blue}注意当\,L\,变换到\,I\,时,\,LDL^T\,的特征值。S\,变成了\,D。[1331]=[1301][1−8][1031]这是S=LDLT,它是对称的。注意当L变换到I时,LDLT的特征值。S变成了D。LDLTLDL^TLDLT 的特征值是 444 和 −2-2−2,IDITIDI^TIDIT 的特征值是 111 和 −8-8−8(是主元!),随着 LLL 中的 ′′3′′''3''′′3′′ 变成零,特征值也在改变,但是要改变符号,实数特征值不得不经过零,则矩阵在此刻变成了奇异矩阵,但是当我们改变矩阵时主元一直是 111 和 −8-8−8,所以它不可能奇异,则在 λ′s\lambda'sλ′s 变为 d′sd'sd′s 的过程中,符号不会改变。
对于任意的 S=LDLTS=LDL^TS=LDLT 重复证明一下,通过将非对角矩阵的元素变成零,使得 LLL 变为 III,在此过程中,主元不变也不为零,LDLTLDL^TLDLT 的特征值 λ\lambdaλ 会变成 IDITIDI^TIDIT 的特征值。由于这些特征值在它们向主元的变化过程中不可能会经过零,所以符号不会改变。λ′s\lambda'sλ′s 和 d′sd'sd′s 有相同的符号。
这个结论将应用线性代数中的两部分结合了起来 —— 主元和特征值。
四、所有对称矩阵都可对角化
当 AAA 没有重复的特征值时,特征向量一定是无关的,此时 AAA 可以对角化。但是如果有重复的特征值可能导致特征向量的不足,这种情况有时会在非对称矩阵身上发生,但是对称矩阵不存在这种情况。对于对称矩阵 S=STS=S^TS=ST,总是存在足够的特征向量使得它可以对角化。
这是一个证明思路:使用对角矩阵 diag(c,2c,⋯ ,nc)\textrm{diag}(c,2c,\cdots,nc)diag(c,2c,⋯,nc) 稍微改变一下 SSS,即加上这个对角矩阵,如果 ccc 很小时,则新的对称矩阵不会有重复的特征值,那么它会有一整套的标准正交的特征向量。当 c→0c\rightarrow0c→0 时,我们可以得到原始矩阵 SSS 的 nnn 个标准正交特征向量,即使 SSS 有重复的特征值。
但是这个证明不太完整,在于如何确保小的对角矩阵可以使特征值分开呢?当然这个结论是正确的。
还有一个不同的证明,它来自于可应用于所有方阵 AAA 的新的分解法,无论 AAA 是否对称。当 SSS 是任意的实矩阵时,这个新的分解法可以很快得到 S=QΛQTS=Q\Lambda Q^TS=QΛQT 且有一整套实标准正交的特征向量。任意方阵 A 都可以分解成 QTQ−1,这里 T 是上三角矩阵且有 QˉT=Q−1.如果 A 有实数特征值,则 Q 和 T 可以选择成实数:QTQ=I.\pmb{任意方阵}\,A\,\pmb{都可以分解成}\,QTQ^{-1},\pmb{这里}\,T\,\pmb{是上三角矩阵且有}\,\bar Q^T=Q^{-1}.\\\pmb{如果}\,A\,\pmb{有实数特征值,则}\,Q\,\pmb和\,T\,\pmb{可以选择成实数:}Q^TQ=I.任意方阵A都可以分解成QTQ−1,这里T是上三角矩阵且有QˉT=Q−1.如果A有实数特征值,则Q和T可以选择成实数:QTQ=I.这是舒尔定理(Schur’s Theorem). 这里只证明为什么当 SSS 对称时 TTT 是对角矩阵(T=ΛT=\LambdaT=Λ),则 SSS 是 QΛQTQ\Lambda Q^TQΛQT.
我们知道任意的对称矩阵 SSS 有实数特征值,舒尔允许有重复的 λ′s\lambda'sλ′s:
由舒尔的 S=QTQ−1S=QTQ^{-1}S=QTQ−1 可以得到 T=QTSQT=Q^TSQT=QTSQ,转置后仍然是 QTSQQ^TSQQTSQ.
所以当 S=STS=S^TS=ST 时,三角矩阵 TTT 是对称的,则 TTT 一定是对角矩阵且 T=ΛT=\LambdaT=Λ.
这个证明了 S=QΛQ−1S=Q\Lambda Q^{-1}S=QΛQ−1,对称矩阵 SSS 在 QQQ 中有 nnn 个标准正交特征向量。
注:这个还有其它的证明,利用奇异值。
五、主要内容总结
- 每个对称矩阵 SSS 都有实数特征值和相互垂直的特征向量。
- 对角化变成了 S=QΛQTS=Q\Lambda Q^TS=QΛQT,其中 QQQ 是一个正交特征向量矩阵。
- 所有的对称矩阵都可以对角化,即使它有重复的特征值。
- 当 S=STS=S^TS=ST 时,特征值和主元有相同的符号。
- 每个方阵都可以 “三角化” 成 A=QTQ−1A=QTQ^{-1}A=QTQ−1,如果 A=SA=SA=S,则 T=ΛT=\LambdaT=Λ。
六、例题
【例5】什么样的矩阵 AAA 有特征值 λ=1,−1\lambda=1,-1λ=1,−1 且特征向量 x1=(cosθ,sinθ)\boldsymbol x_1=(\cos\theta,\sin\theta)x1=(cosθ,sinθ),x2=(−sinθ,cosθ)\boldsymbol x_2=(-\sin\theta,\cos\theta)x2=(−sinθ,cosθ) ?下面那些性质可以提前预测到 ?A=ATA2=IdetA=−1主元的符号是+和−A−1=A\color{blue}A=A^T\kern 10ptA^2=I\kern 10pt\det A=-1\kern 10pt主元的符号是+和-\kern 10ptA^{-1}=AA=ATA2=IdetA=−1主元的符号是+和−A−1=A解: 这些性质全都可以预测到!有实数特征值 1,−11,-11,−1 和标准正交特征向量 x1,x2\boldsymbol x_1,\boldsymbol x_2x1,x2,矩阵 A=QΛQTA=Q\Lambda Q^TA=QΛQT 一定是对称的。由特征向量是 111 和 −1-1−1,所以 λ2=1\lambda^2=1λ2=1, 则 Λ2=I\Lambda^2=IΛ2=I,可得 A2=IA^2=IA2=I 和 A−1=AA^{-1}=AA−1=A(这两个是一回事),且 detA=−1\det A=-1detA=−1。由 AAA 是对称矩阵可得,两个主元的符号一定和特征值一致,即一正一负。
这个矩阵是一个反射矩阵。AAA 乘上 x1\boldsymbol x_1x1 方向的向量不变,因为 λ=1\lambda=1λ=1;乘上垂直的 x2\boldsymbol x_2x2 方向的向量会反向,因为 λ=−1\lambda=-1λ=−1。反射矩阵 A=AΛQTA=A\Lambda Q^TA=AΛQT 横跨 θ−线\theta-线θ−线(θ−line\theta-\textrm{line}θ−line),用 ccc 替代 cosθ\cos\thetacosθ,sss 替代 sinθ\sin\thetasinθ:A=[c−ssc][100−1][cs−sc]=[c2−s22cs2css2−c2]=[cos2θsin2θsin2θ−cos2θ]A=\begin{bmatrix}c&-s\\s&\kern 7ptc\end{bmatrix}\begin{bmatrix}1&\kern 7pt0\\0&-1\end{bmatrix}\begin{bmatrix}\kern 7ptc&s\\-s&c\end{bmatrix}=\begin{bmatrix}c^2-s^2&2cs\\2cs&s^2-c^2\end{bmatrix}=\begin{bmatrix}\cos2\theta&\kern 7pt\sin2\theta\\\sin2\theta&-\cos2\theta\end{bmatrix}A=[cs−sc][100−1][c−ssc]=[c2−s22cs2css2−c2]=[cos2θsin2θsin2θ−cos2θ]注意向量 x=(1,0)\boldsymbol x=(1,0)x=(1,0) 得到 Ax=(cos2θ,sin2θ)A\boldsymbol x=(\cos2\theta,\sin2\theta)Ax=(cos2θ,sin2θ) 是在 2θ−线2\theta-线2θ−线 上,而向量 (cos2θ,sin2θ)(\cos2\theta,\sin2\theta)(cos2θ,sin2θ) 会回到 θ−线\theta-线θ−线 上得到 x=(1,0)\boldsymbol x=(1,0)x=(1,0).
【例6】求 A3A_3A3 和 B4B_4B4 (离散正弦和余弦)的特征值和特征向量。A3=[2−10−12−10−12]B4=[1−1−12−1−12−1−11]A_3=\begin{bmatrix}\kern 7pt2&-1&\kern 7pt0\\-1&\kern 7pt2&-1\\\kern 7pt0&-1&\kern 7pt2\end{bmatrix}\kern 20ptB_4=\begin{bmatrix}\kern 7pt1&-1\\-1&\kern 7pt2&-1\\&-1&\kern 7pt2&-1\\&&-1&\kern 7pt1\end{bmatrix}A3=2−10−12−10−12B4=1−1−12−1−12−1−11两个矩阵的 −1,2,−1-1,2,-1−1,2,−1 模式是一个 “二阶差分”,就像二阶导数。Ax=λxA\boldsymbol x=\lambda\boldsymbol xAx=λx 和 Bx=λxB\boldsymbol x=\lambda\boldsymbol xBx=λx 就像 d2x/dt2=λxd^2x/dt^2=\lambda xd2x/dt2=λx,这些的特征向量 x=sinktx=\sin ktx=sinkt 和 x=cosktx=\cos ktx=coskt 是傅里叶级数的基。
AnA_nAn 和 BnB_nBn 得到 “离散正弦” 和 “离散余弦”,这些是离散傅里叶变换(DFT:Discrete Fourier Transform)的基。DFT 是所有数字信号处理领域的绝对中心,图像处理中的 JPEG 最常使用的是大小为 n=8n=8n=8 的 B8B_8B8.
解: A3A_3A3 的特征值是 λ=2−2、2\lambda=2-\sqrt2、2λ=2−2、2 和 2+22+\sqrt22+2,它们的和是 666(A3A_3A3 的迹),积是 444(行列式),特征向量矩阵得到 “离散正弦变换”,特征向量落在正弦曲线上:正弦 Sines=[12120−21−21]余弦 Cosines=[111112−1−11−211−2−12−11−11−1]正弦矩阵 Sin matrix = A3 的特征向量余弦矩阵 Cosine matrix = B4 的特征向量\begin{array}{ll}正弦\,\textrm{\pmb{Sines}}=\begin{bmatrix}1&\sqrt2&1\\\sqrt2&0&-\sqrt2\\1&-\sqrt2&1\end{bmatrix}&余弦\,\textrm{\pmb{Cosines}}=\begin{bmatrix}1&1&1&1\\1&\sqrt2-1&-1&1-\sqrt2\\1&1-\sqrt2&-1&\sqrt2-1\\1&-1&1&-1\end{bmatrix}\\\pmb{正弦矩阵}\,\pmb{\textrm{Sin\,matrix\,=}}\,\pmb A_{\pmb3}\,\pmb{的特征向量}&\pmb{余弦矩阵}\,\textrm{\pmb{Cosine\,matrix\,=}}\,\pmb{B}_{\pmb4}\,\pmb{的特征向量}\end{array}正弦Sines=12120−21−21正弦矩阵Sinmatrix=A3的特征向量余弦Cosines=111112−11−2−11−1−1111−22−1−1余弦矩阵Cosinematrix=B4的特征向量B4B_4B4 的特征值是 λ=2−2、2、2+2\lambda=2-\sqrt2、2、2+\sqrt2λ=2−2、2、2+2 和 000(与 A3A_3A3 相同加上零特征值),迹仍然是 666,但是行列式是零了。特征向量矩阵得到 4−点4-点4−点 “离散傅里叶变换”,特征向量落在余弦曲线上。这些特征向量在余弦曲线上的点落在 π/8,3π/8,5π/8,7π/8π/8,3π/8,5π/8,7π/8π/8,3π/8,5π/8,7π/8 处。