6.4 对称矩阵

一、对称矩阵的性质

可以毫不夸张的说,对称矩阵 SSS 是世界上所能看到的最重要的矩阵 —— 不仅在线性代数理论也是在实际应用中。关于对称矩阵的关键问题,这个问题有两部分答案:当 S 是对称矩阵时,Sx=λx 有什么特殊的?\pmb{当\,S\,是对称矩阵时,S\boldsymbol x=\lambda\boldsymbol x\,有什么特殊的?}S是对称矩阵时,Sx=λx有什么特殊的?S=STS=S^TS=ST 时,我们寻找特征值 λ\lambdaλ 和特征向量 x\boldsymbol xx 的特殊性质。对角化 S=XΛX−1S=X\Lambda X^{-1}S=XΛX1 会反映出 SSS 的对称性,我们取转置 ST=(X−1)TΛXTS^T=(X^{-1})^T\Lambda X^TST=(X1)TΛXT,由于 S=STS=S^TS=ST,所以这些是一样的。那么可以猜测第一种形式的 X−1X^{-1}X1 可能等于第二种形式中的 XTX^TXT,就会有 XTX=IX^TX=IXTX=I,此时 XXX 中的每个特征向量和另外的特征向量正交。有以下两个事实:

1、对称矩阵只有实数特征值。
2、特征向量可以选成标准正交的向量。

nnn 个标准正交的特征向量进到 XXX 的列,则每个对称矩阵都可以对角化。对称矩阵的特征向量矩阵 XXX 变成了一个正交矩阵 QQQ。正交矩阵有 Q−1=QTQ^{-1}=Q^TQ1=QT,我们猜测的特征向量矩阵的性质是正确的。注意当我们选择标准正交的特征向量时,此时用 QQQ 替代了 XXX
为什么是说 “选择” 呢?这是因为特征向量并不一定是单位向量,我们可以处理它的长度,这里我们选择单位向量 —— 长度为一的特征向量,它们标准正交而不仅仅是正交向量。则 A=XΛX−1A=X\Lambda X^{-1}A=XΛX1 在对称矩阵这种特殊情况下有特殊形式 S=QΛQ−1S=Q\Lambda Q^{-1}S=QΛQ1

(Spectral Theorem 谱定理) 每个对称矩阵都可以分解成 S=QΛQTS=Q\Lambda Q^TS=QΛQTΛ\LambdaΛ 中是实数特征值,QQQ 的列是标准正交的特征向量:对称对角化(Symmetric diagonalization)S=QΛQT,且 Q−1=QT(6.4.1)\pmb{对称对角化(\textrm{Symmetric\,diagonalization})}\kern 10pt{\color{blue}S=Q\Lambda Q^T,且\,Q^{-1}=Q^T}\kern 8pt(6.4.1)对称对角化(Symmetricdiagonalization)S=QΛQT,且Q1=QT(6.4.1)

很容易就可以看出 QΛQTQ\Lambda Q^TQΛQT 是对称的,取转置,可以得到 (QT)TΛTQT(Q^T)^T\Lambda^TQ^T(QT)TΛTQT,也就是 QΛQTQ\Lambda Q^TQΛQT。比较困难的是要证明每个对称矩阵都是实数特征值 λ′s\lambda'sλs 和标准正交的特征向量 x′s\boldsymbol x'sxs。这就是数学上的 “谱定理” 和几何和物理上的 “主轴定理(principal axis theorem)”。下面要证明它!会用三步来说明:

  1. 通过一个例子来展示 Λ\LambdaΛ 中的实数特征值 λ′s\lambda'sλsQQQ 中的标准正交的特征向量 x′s\boldsymbol x'sxs.
  2. 当没有重复的特征值时,证明这些事实。
  3. 允许有重复的特征值时的证明。(本节的最后)

例1】当 S=[1224]S=\begin{bmatrix}1&2\\2&4\end{bmatrix}S=[1224]S−λI=[1−λ224−λ]S-\lambda I=\begin{bmatrix}1-\lambda&2\\2&4-\lambda\end{bmatrix}SλI=[1λ224λ] 时,求 λ′s\lambda'sλsx′s\boldsymbol x'sxs.
解: S−λIS-\lambda ISλI 的行列式是 λ2−5λ\lambda^2-5\lambdaλ25λ,则特征值是 000555,它们都是实数。我们也可以直接看出特征值:由于 SSS 是奇异的,所以 λ=0\lambda=0λ=0 是一个特征值,由矩阵的迹可以得到 λ=5\lambda=5λ=5 是另一个特征值:0+50+50+5 等于 1+41+41+4.
两个特征向量是 (2,−1)(2,-1)(2,1)(1,2)(1,2)(1,2) —— 正交但还不是标准正交,λ=0\lambda=0λ=0 时的特征向量在 SSS 的零空间,λ=5\lambda=5λ=5 时的特征向量在列空间。那么这里为什么零空间和列空间垂直呢?基本定理说的是零空间垂直于行空间 —— 不是列空间,但是我们的矩阵是对称的!它的行空间和列空间一样,它的特征向量 (2,−1)(2,-1)(2,1)(1,2)(1,2)(1,2) 也一定垂直,这里也确实是垂直的。
这两个特征向量的长度都是 5\sqrt55,都除以 5\sqrt55 就得到了单位向量,将这些单位向量放进 QQQ 的列中,则 Q−1SQQ^{-1}SQQ1SQ 就是 Λ\LambdaΛ,且 Q−1=QTQ^{-1}=Q^TQ1=QTQ−1SQ=15[2−112][1224]15[21−12]=[0005]=ΛQ^{-1}SQ=\frac{1}{\sqrt5}\begin{bmatrix}2&-1\\1&\kern 7pt2\end{bmatrix}\begin{bmatrix}1&2\\2&4\end{bmatrix}\frac{1}{\sqrt5}\begin{bmatrix}\kern 7pt2&1\\-1&2\end{bmatrix}=\begin{bmatrix}0&0\\0&5\end{bmatrix}=\LambdaQ1SQ=51[2112][1224]51[2112]=[0005]=Λ现在讨论 n×nn\times nn×n 的情况,当 S=STS=S^TS=STSx=λxS\boldsymbol x=\lambda\boldsymbol xSx=λxλ′s\lambda'sλs 都是实数。

实数特征值 \kern 5pt实对称矩阵的所有特征值都是实数。

证明: 假设 Sx=λxS\boldsymbol x=\lambda\boldsymbol xSx=λx,到目前为止我们知道,λ\lambdaλ 可能是一个复数 a+iba+iba+ibaaabbb)是实数,它的共轭复数是 λˉ=a−ib\bar\lambda=a-ibλˉ=aib,相似的,x\boldsymbol xx 的分量也可能是复数,改变虚部的符号得到 xˉ\bar{\boldsymbol x}xˉ.
好事是 λˉ\bar\lambdaλˉxˉ\bar{\boldsymbol x}xˉ 总是 λ\lambdaλx\boldsymbol xx 的共轭,所以我们取 Sx=λxS\boldsymbol x=\lambda\boldsymbol xSx=λx,记住 SSS 是实数:Sx=λx得到Sxˉ=λˉxˉ.转置得xˉTS=xˉTλˉS\boldsymbol x=\lambda\boldsymbol x\kern 5pt得到\kern 5ptS\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}.\kern 15pt转置得\kern 5pt\bar{\boldsymbol x}^TS=\bar{\boldsymbol x}^T\bar\lambdaSx=λx得到Sxˉ=λˉxˉ.转置得xˉTS=xˉTλˉ现在取第一个方程与 xˉ\bar{\boldsymbol x}xˉ 的点积和最后一个方程与 x\boldsymbol xx 的点积:xˉTSx=xˉTλx和xˉTSx=xˉTλˉx(6.4.2)\bar{\boldsymbol x}^TS\boldsymbol x=\bar{\boldsymbol x}^T\lambda\boldsymbol x\kern 15pt和\kern 15pt\bar{\boldsymbol x}^TS\boldsymbol x=\bar{\boldsymbol x}^T\bar\lambda\boldsymbol x\kern 20pt(6.4.2)xˉTSx=xˉTλxxˉTSx=xˉTλˉx(6.4.2)左侧的是一样的,所以右侧相等,一个方程是 λ\lambdaλ,另一个是 λˉ\bar\lambdaλˉ. 乘积 xˉTx=∣x1∣2+∣x2∣2+⋯=长度的平方\bar{\boldsymbol x}^T\boldsymbol x=|x_1|^2+|x_2|^2+\cdots=长度的平方xˉTx=x12+x22+=长度的平方,这一项不为零。因此 λ\lambdaλ 一定等于 λˉ\bar\lambdaλˉ,且 a+iba+iba+ib 等于 a−iba-ibaib,所以 b=0b=0b=0λ=a=实数\lambda=a=实数λ=a=实数。证毕!
特征向量是求解实数方程 (S−λI)x=0(S-\lambda I)\boldsymbol x=\boldsymbol 0(SλI)x=0 得到的,所以 x′s\boldsymbol x'sxs 也是实数。重要的事实是它们是垂直的。

正交特征向量 \kern 5pt实对称矩阵的特征向量(对应于不同的 λ′s\lambda'sλs)永远垂直。

证明: 假设 Sx=λ1xS\boldsymbol x=\lambda_1\boldsymbol xSx=λ1xSy=λ2yS\boldsymbol y=\lambda_2\boldsymbol ySy=λ2y,这里假设 λ1≠λ2\lambda_1\neq\lambda_2λ1=λ2,第一个方程取与 y\boldsymbol yy 的点积,第二个方程取与 x\boldsymbol xx 的点积:使用 ST=S(λ1x)Ty=(Sx)Ty=xTSTy=xTSy=xTλ2y(6.4.3)\pmb{使用}\,S^T=S\kern 15pt(\lambda_1\boldsymbol x)^T\boldsymbol y=(S\boldsymbol x)^T\boldsymbol y=\boldsymbol x^TS^T\boldsymbol y=\boldsymbol x^TS\boldsymbol y=\boldsymbol x^T\lambda_2\boldsymbol y\kern 14pt(6.4.3)使用ST=S(λ1x)Ty=(Sx)Ty=xTSTy=xTSy=xTλ2y(6.4.3)左边是 xTλ1y\boldsymbol x^T\lambda_1\boldsymbol yxTλ1y,右边是 xTλ2y\boldsymbol x^T\lambda_2\boldsymbol yxTλ2y,由于 λ1≠λ2\lambda_1\neq\lambda_2λ1=λ2,所以有 xTy=0\boldsymbol x^T\boldsymbol y=0xTy=0,所以 λ1\lambda_1λ1 对应的特征向量 x\boldsymbol xx 垂直于 λ2\lambda_2λ2 对应的特征向量 y\boldsymbol yy.

例22×22\times22×2 对称矩阵的特征向量有一个特殊形式 :不太广为人知的S=[abbc]有x1=[bλ1−a]和x2=[λ2−cb](6.4.4)\pmb{不太广为人知的}\kern 15ptS=\begin{bmatrix}a&b\\b&c\end{bmatrix}\kern 5pt有\kern 5pt\boldsymbol x_1=\begin{bmatrix}b\\\lambda_1-a\end{bmatrix}\kern 5pt和\kern 5pt\boldsymbol x_2=\begin{bmatrix}\lambda_2-c\\b\end{bmatrix}\kern 15pt(6.4.4)不太广为人知的S=[abbc]x1=[bλ1a]x2=[λ2cb](6.4.4)这个重点是 x1\boldsymbol x_1x1x2\boldsymbol x_2x2 垂直:x1Tx2=b(λ2−c)+(λ1−a)b=b(λ1+λ2−a−c)=0\boldsymbol x_1^T\boldsymbol x_2=b(\lambda_2-c)+(\lambda_1-a)b=b(\lambda_1+\lambda_2-a-c)=0x1Tx2=b(λ2c)+(λ1a)b=b(λ1+λ2ac)=0因为 λ1+λ2\lambda_1+\lambda_2λ1+λ2 等于迹 a+ca+ca+c,所以结果为零,则 x1Tx2=0\boldsymbol x_1^T\boldsymbol x_2=0x1Tx2=0。你可能会注意到特殊的情况 S=IS=IS=I,此时 b、λ1−a、λ2−cb、\lambda_1-a、\lambda_2-cbλ1aλ2cx1、x2\boldsymbol x_1、\boldsymbol x_2x1x2 都是零,这是因为 λ1=λ2\lambda_1=\lambda_2λ1=λ2 是重复的特征值。当然 S=IS=IS=I 也有垂直的特征向量。对称矩阵 S 有标准正交的特征向量矩阵 Q. 再看一下:对称S=XΛX−1变成S=QΛQT且QTQ=I这个说明任意的 2×2 矩阵是 (旋转)(拉伸)(旋转回来)S=QΛQT=[q1q2 ][λ1λ2][q1T q2T](6.4.5)列 q1 和 q2 乘行 λ1q1T 和 λ2q2T 得到 S=λ1q1q1T+λ2q2q2T\boxed{\begin{array}{c}\pmb{对称矩阵\,S\,有标准正交的特征向量矩阵\,Q.}\,再看一下:\\\color{blue}对称\kern 10ptS=X\Lambda X^{-1}\kern 5pt变成\kern 5ptS=Q\Lambda Q^T\kern 5pt且\kern 5ptQ^TQ=I\\这个说明任意的\,2\times2\,矩阵是\,\pmb{(旋转)(拉伸)(旋转回来)}\\S=Q\Lambda Q^T=\begin{bmatrix}\\\boldsymbol q_1&\boldsymbol q_2\\\,\end{bmatrix}\begin{bmatrix}\lambda_1\\&\lambda_2\end{bmatrix}\begin{bmatrix}\boldsymbol q_1^T\\\,\\\boldsymbol q_2^T\end{bmatrix}\kern 15pt(6.4.5)\\\pmb{列\,\boldsymbol q_1\,和\,\boldsymbol q_2\,乘行\,\lambda_1\boldsymbol q_1^T\,和\,\lambda_2\boldsymbol q_2^T\,得到\,S=\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T}\end{array}}对称矩阵S有标准正交的特征向量矩阵Q.再看一下:对称S=XΛX1变成S=QΛQTQTQ=I这个说明任意的2×2矩阵是(旋转)(拉伸)(旋转回来)S=QΛQT=q1q2[λ1λ2]q1Tq2T(6.4.5)q1q2乘行λ1q1Tλ2q2T得到S=λ1q1q1T+λ2q2q2T

每个对称矩阵S=QΛQT=λ1q1q1T+λ2q2q2T+⋯+λnqnqnT(6.4.6){\color{blue}{\pmb{每个对称矩阵}\kern 90ptS=Q\Lambda Q^T=\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T+\cdots+\lambda_n\boldsymbol q_n\boldsymbol q_n^T}}\kern 25pt(6.4.6)每个对称矩阵S=QΛQT=λ1q1q1T+λ2q2q2T++λnqnqnT(6.4.6)

这些伟大结果的步骤(谱定理):

  1. Axi=λixiA\boldsymbol x_i=\lambda_i\boldsymbol x_iAxi=λixi 写成矩阵形式AX=XΛ 或 A=XΛX−1\kern 20ptAX=X\Lambda\,或\,A=X\Lambda X^{-1}AX=XΛA=XΛX1
  2. 标准正交 xi=qi\boldsymbol x_i=\boldsymbol q_ixi=qi 使得 X=QS=QΛQ−1=QΛQTX=Q\kern 15ptS=Q\Lambda Q^{-1}=Q\Lambda Q^TX=QS=QΛQ1=QΛQT

方程(6.4.6)中的 QΛQTQ\Lambda Q^TQΛQT 的列是 QΛQ\LambdaQΛ 乘行 QTQ^TQT,下面是直接的证明:

S 有正确的特征向量,这些 q′s 标准正交Sqi=(λ1q1q1T+λ2q2q2T+⋯+λnqnqnT)qi=λiqi(6.4.7)\pmb{S\,有正确的特征向量,这些\,\boldsymbol q's\,标准正交}\kern 20ptS\boldsymbol q_i=(\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T+\cdots+\lambda_n\boldsymbol q_n\boldsymbol q_n^T)\boldsymbol q_i=\lambda_i\boldsymbol q_i\kern 15pt(6.4.7)S有正确的特征向量,这些qs标准正交Sqi=(λ1q1q1T+λ2q2q2T++λnqnqnT)qi=λiqi(6.4.7)

二、实数矩阵的复数特征值

对于任意的实数矩阵,由 Ax=λxA\boldsymbol x=\lambda\boldsymbol xAx=λx 得到 Axˉ=λˉxˉA\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}Axˉ=λˉxˉ,若是对称矩阵 Sx=λxS\boldsymbol x=\lambda\boldsymbol xSx=λx 得到 Sxˉ=λˉxˉS\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}Sxˉ=λˉxˉλ\lambdaλx\boldsymbol xx 都是实数,则这两个方程是一样的。但是非对称矩阵会很容易有复数的 λ\lambdaλx\boldsymbol xx,则 Axˉ=λˉxˉA\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}Axˉ=λˉxˉ 就与 Ax=λxA\boldsymbol x=\lambda\boldsymbol xAx=λx 不再相同,我么得到了另一个复数特征值(就是 λˉ\bar\lambdaλˉ)和一个新的特征向量(就是 xˉ\bar{\boldsymbol x}xˉ):

对于实数矩阵,复数 λ′s 和 x′s 都是以 “共轭对(conjugate pairs)” 形式出现的。λ=a+ibλˉ=a−ib如果 Ax=λx 则 Axˉ=λˉxˉ(6.4.8)\pmb{对于实数矩阵,复数\,\lambda's\,和\,\boldsymbol x's\,都是以\,“共轭对(\textrm{conjugate\,pairs})”\,形式出现的。}\\\begin{matrix}\lambda=a+ib\\\bar{\lambda}=a-ib\end{matrix}\kern 15pt{\color{blue}如果\,A\boldsymbol x=\lambda\boldsymbol x\,则\,A\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}}\kern 20pt(6.4.8)对于实数矩阵,复数λsxs都是以共轭对(conjugatepairs)形式出现的。λ=a+ibλˉ=aib如果Ax=λxAxˉ=λˉxˉ(6.4.8)

例3A=[cos⁡θ−sin⁡θsin⁡θcos⁡θ]A=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}A=[cosθsinθsinθcosθ] 的特征值是 λ1=cos⁡θ+isin⁡θ\lambda_1=\cos\theta+i\sin\thetaλ1=cosθ+isinθλ2=cos⁡θ−isin⁡θ\lambda_2=\cos\theta-i\sin\thetaλ2=cosθisinθ.
这些特征值都是另一个的共轭,它们分别是 λ\lambdaλλˉ\bar{\lambda}λˉ,由于 AAA 是实数矩阵,所以特征向量一定是 x\boldsymbol xxxˉ\bar{\boldsymbol x}xˉ这是 λxAx=[cos⁡θ−sin⁡θsin⁡θcos⁡θ][1−i]=(cos⁡θ+isin⁡θ)[1−i]这是 λˉxˉAxˉ=[cos⁡θ−sin⁡θsin⁡θcos⁡θ][1i]=(cos⁡θ−isin⁡θ)[1i](6.4.9)\begin{array}{ll}这是\,\lambda\boldsymbol x&A\boldsymbol x=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}\begin{bmatrix}\kern 7pt1\\-i\end{bmatrix}=(\cos\theta+i\sin\theta)\begin{bmatrix}\kern 7pt1\\-i\end{bmatrix}\\\\这是\,\bar\lambda\bar{\boldsymbol x}&A\bar{\boldsymbol x}=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}\begin{bmatrix}1\\i\end{bmatrix}=(\cos\theta-i\sin\theta)\begin{bmatrix}1\\i\end{bmatrix}\end{array}\kern 13pt(6.4.9)这是λx这是λˉxˉAx=[cosθsinθsinθcosθ][1i]=(cosθ+isinθ)[1i]Axˉ=[cosθsinθsinθcosθ][1i]=(cosθisinθ)[1i](6.4.9)由于 AAA 是实矩阵,所以这些特征向量 (1,−i)(1,-i)(1,i)(1,i)(1,i)(1,i) 是共轭复数。
这个旋转矩阵特征值的绝对值是 ∣λ∣=1|\lambda|=1λ=1,因为 cos⁡2θ+sin⁡2θ=1\cos^2\theta+\sin^2\theta=1cos2θ+sin2θ=1事实上,每一个正交矩阵 QQQ 都有特征值 ∣λ∣=1|\lambda|=1λ=1.

三、特征值对比主元

AAA 的特征值和主元是不一样的,对于特征值,我们是求解 det⁡(A−λI)=0\det(A-\lambda I)=0det(AλI)=0;对于主元,我们使用消元法。目前来说它们的唯一联系是:主元的乘积=行列式=特征值的乘积\pmb{主元的乘积=行列式=特征值的乘积}主元的乘积=行列式=特征值的乘积假设有一整套主元 d1,d2,⋯ ,dnd_1,d_2,\cdots,d_nd1,d2,,dnnnn 个实数特征值 λ1,λ2,⋯ ,λn\lambda_1,\lambda_2,\cdots,\lambda_nλ1,λ2,,λn,这些 d′sd'sdsλ′s\lambda'sλs 是不一样的,但是如果它们来自相同的对称矩阵,这些 d′sd'sdsλ′s\lambda'sλs 就有一个隐藏的关系。对称矩阵的主元和特征值有相同的符号:S=ST 正特征值的个数等于它正主元的个数。特殊情况:S 所有的 λi>0 当且仅当所有的主元都是正数。{\color{blue}S=S^T\,正特征值的个数等于它正主元的个数。}\\特殊情况:S\,所有的\,\lambda_i>0\,当且仅当所有的主元都是正数。S=ST正特征值的个数等于它正主元的个数。特殊情况:S所有的λi>0当且仅当所有的主元都是正数。这种特殊情况就是正定矩阵(positive definite matrices) 最重要的事实。

例4】下面这个对称矩阵有一个正特征值和正主元:符号匹配S=[1331]有主元 1 和−8特征值 4 和−2\pmb{符号匹配}\kern 20ptS=\begin{bmatrix}1&3\\3&1\end{bmatrix}\kern 10pt\begin{array}{l}有主元\,1\,和-8\\特征值\,4\,和-2\end{array}符号匹配S=[1331]有主元18特征值42主元的符号和特征值的符号是匹配的,一个正号一个负号。当矩阵不是对称矩阵时,这个结论可能是错误的:相反符号B=[16−1−4]有主元 1 和 2特征值−1 和−2\pmb{相反符号}\kern 20ptB=\begin{bmatrix}\kern 7pt1&\kern 7pt6\\-1&-4\end{bmatrix}\kern 10pt\begin{array}{l}有主元\,1\,和\,2\\特征值-1\,和-2\end{array}相反符号B=[1164]有主元12特征值12下面是当 S=ST 时,主元和特征值有相同符号的证明。\color{blue}下面是当\,S=S^T\,时,主元和特征值有相同符号的证明。下面是当S=ST时,主元和特征值有相同符号的证明。当主元从 UUU 的行使用除法提取出来时可以看的比较清晰,此时 SSS 就是 LDLTLDL^TLDLT,对角主元矩阵 DDD 在两个三角矩阵 LLLLTL^TLT 之间:[1331]=[1031][1−8][1301]这是 S=LDLT,它是对称的。注意当 L 变换到 I 时, LDLT 的特征值。S 变成了 D。\begin{bmatrix}1&3\\3&1\end{bmatrix}=\begin{bmatrix}1&0\\\pmb3&1\end{bmatrix}\begin{bmatrix}1\\&-8\end{bmatrix}\begin{bmatrix}1&\pmb3\\0&1\end{bmatrix}\kern 10pt\pmb{这是}\,S=LDL^T,\pmb{它是对称的}。\\\color{blue}注意当\,L\,变换到\,I\,时,\,LDL^T\,的特征值。S\,变成了\,D。[1331]=[1301][18][1031]这是S=LDLT它是对称的注意当L变换到I时,LDLT的特征值。S变成了DLDLTLDL^TLDLT 的特征值是 444−2-22IDITIDI^TIDIT 的特征值是 111−8-88(是主元!),随着 LLL 中的 ′′3′′''3''′′3′′ 变成零,特征值也在改变,但是要改变符号,实数特征值不得不经过零,则矩阵在此刻变成了奇异矩阵,但是当我们改变矩阵时主元一直是 111−8-88,所以它不可能奇异,则在 λ′s\lambda'sλs 变为 d′sd'sds 的过程中,符号不会改变。
对于任意的 S=LDLTS=LDL^TS=LDLT 重复证明一下,通过将非对角矩阵的元素变成零,使得 LLL 变为 III,在此过程中,主元不变也不为零,LDLTLDL^TLDLT 的特征值 λ\lambdaλ 会变成 IDITIDI^TIDIT 的特征值。由于这些特征值在它们向主元的变化过程中不可能会经过零,所以符号不会改变。λ′s\lambda'sλsd′sd'sds 有相同的符号。
这个结论将应用线性代数中的两部分结合了起来 —— 主元和特征值。

四、所有对称矩阵都可对角化

AAA 没有重复的特征值时,特征向量一定是无关的,此时 AAA 可以对角化。但是如果有重复的特征值可能导致特征向量的不足,这种情况有时会在非对称矩阵身上发生,但是对称矩阵不存在这种情况。对于对称矩阵 S=STS=S^TS=ST,总是存在足够的特征向量使得它可以对角化。
这是一个证明思路:使用对角矩阵 diag(c,2c,⋯ ,nc)\textrm{diag}(c,2c,\cdots,nc)diag(c,2c,,nc) 稍微改变一下 SSS,即加上这个对角矩阵,如果 ccc 很小时,则新的对称矩阵不会有重复的特征值,那么它会有一整套的标准正交的特征向量。当 c→0c\rightarrow0c0 时,我们可以得到原始矩阵 SSSnnn 个标准正交特征向量,即使 SSS 有重复的特征值。
但是这个证明不太完整,在于如何确保小的对角矩阵可以使特征值分开呢?当然这个结论是正确的。
还有一个不同的证明,它来自于可应用于所有方阵 AAA 的新的分解法,无论 AAA 是否对称。当 SSS 是任意的实矩阵时,这个新的分解法可以很快得到 S=QΛQTS=Q\Lambda Q^TS=QΛQT 且有一整套实标准正交的特征向量。任意方阵 A 都可以分解成 QTQ−1,这里 T 是上三角矩阵且有 QˉT=Q−1.如果 A 有实数特征值,则 Q 和 T 可以选择成实数:QTQ=I.\pmb{任意方阵}\,A\,\pmb{都可以分解成}\,QTQ^{-1},\pmb{这里}\,T\,\pmb{是上三角矩阵且有}\,\bar Q^T=Q^{-1}.\\\pmb{如果}\,A\,\pmb{有实数特征值,则}\,Q\,\pmb和\,T\,\pmb{可以选择成实数:}Q^TQ=I.任意方阵A都可以分解成QTQ1这里T是上三角矩阵且有QˉT=Q1.如果A有实数特征值,则QT可以选择成实数:QTQ=I.这是舒尔定理(Schur’s Theorem). 这里只证明为什么当 SSS 对称时 TTT 是对角矩阵(T=ΛT=\LambdaT=Λ),则 SSSQΛQTQ\Lambda Q^TQΛQT.
我们知道任意的对称矩阵 SSS 有实数特征值,舒尔允许有重复的 λ′s\lambda'sλs
由舒尔的 S=QTQ−1S=QTQ^{-1}S=QTQ1 可以得到 T=QTSQT=Q^TSQT=QTSQ,转置后仍然是 QTSQQ^TSQQTSQ.
所以当 S=STS=S^TS=ST 时,三角矩阵 TTT 是对称的,则 TTT 一定是对角矩阵且 T=ΛT=\LambdaT=Λ.
这个证明了 S=QΛQ−1S=Q\Lambda Q^{-1}S=QΛQ1,对称矩阵 SSSQQQ 中有 nnn 个标准正交特征向量。
注:这个还有其它的证明,利用奇异值。

五、主要内容总结

  1. 每个对称矩阵 SSS 都有实数特征值和相互垂直的特征向量。
  2. 对角化变成了 S=QΛQTS=Q\Lambda Q^TS=QΛQT,其中 QQQ 是一个正交特征向量矩阵。
  3. 所有的对称矩阵都可以对角化,即使它有重复的特征值。
  4. S=STS=S^TS=ST 时,特征值和主元有相同的符号。
  5. 每个方阵都可以 “三角化” 成 A=QTQ−1A=QTQ^{-1}A=QTQ1,如果 A=SA=SA=S,则 T=ΛT=\LambdaT=Λ

六、例题

例5】什么样的矩阵 AAA 有特征值 λ=1,−1\lambda=1,-1λ=1,1 且特征向量 x1=(cos⁡θ,sin⁡θ)\boldsymbol x_1=(\cos\theta,\sin\theta)x1=(cosθ,sinθ)x2=(−sin⁡θ,cos⁡θ)\boldsymbol x_2=(-\sin\theta,\cos\theta)x2=(sinθ,cosθ) ?下面那些性质可以提前预测到 ?A=ATA2=Idet⁡A=−1主元的符号是+和−A−1=A\color{blue}A=A^T\kern 10ptA^2=I\kern 10pt\det A=-1\kern 10pt主元的符号是+和-\kern 10ptA^{-1}=AA=ATA2=IdetA=1主元的符号是+A1=A解: 这些性质全都可以预测到!有实数特征值 1,−11,-11,1 和标准正交特征向量 x1,x2\boldsymbol x_1,\boldsymbol x_2x1,x2,矩阵 A=QΛQTA=Q\Lambda Q^TA=QΛQT 一定是对称的。由特征向量是 111−1-11,所以 λ2=1\lambda^2=1λ2=1, 则 Λ2=I\Lambda^2=IΛ2=I,可得 A2=IA^2=IA2=IA−1=AA^{-1}=AA1=A(这两个是一回事),且 det⁡A=−1\det A=-1detA=1。由 AAA 是对称矩阵可得,两个主元的符号一定和特征值一致,即一正一负。
这个矩阵是一个反射矩阵。AAA 乘上 x1\boldsymbol x_1x1 方向的向量不变,因为 λ=1\lambda=1λ=1;乘上垂直的 x2\boldsymbol x_2x2 方向的向量会反向,因为 λ=−1\lambda=-1λ=1。反射矩阵 A=AΛQTA=A\Lambda Q^TA=AΛQT 横跨 θ−线\theta-线θ线θ−line\theta-\textrm{line}θline),用 ccc 替代 cos⁡θ\cos\thetacosθsss 替代 sin⁡θ\sin\thetasinθA=[c−ssc][100−1][cs−sc]=[c2−s22cs2css2−c2]=[cos⁡2θsin⁡2θsin⁡2θ−cos⁡2θ]A=\begin{bmatrix}c&-s\\s&\kern 7ptc\end{bmatrix}\begin{bmatrix}1&\kern 7pt0\\0&-1\end{bmatrix}\begin{bmatrix}\kern 7ptc&s\\-s&c\end{bmatrix}=\begin{bmatrix}c^2-s^2&2cs\\2cs&s^2-c^2\end{bmatrix}=\begin{bmatrix}\cos2\theta&\kern 7pt\sin2\theta\\\sin2\theta&-\cos2\theta\end{bmatrix}A=[cssc][1001][cssc]=[c2s22cs2css2c2]=[cos2θsin2θsin2θcos2θ]注意向量 x=(1,0)\boldsymbol x=(1,0)x=(1,0) 得到 Ax=(cos⁡2θ,sin⁡2θ)A\boldsymbol x=(\cos2\theta,\sin2\theta)Ax=(cos2θ,sin2θ) 是在 2θ−线2\theta-线2θ线 上,而向量 (cos⁡2θ,sin⁡2θ)(\cos2\theta,\sin2\theta)(cos2θ,sin2θ) 会回到 θ−线\theta-线θ线 上得到 x=(1,0)\boldsymbol x=(1,0)x=(1,0).

例6】求 A3A_3A3B4B_4B4 (离散正弦和余弦)的特征值和特征向量。A3=[2−10−12−10−12]B4=[1−1−12−1−12−1−11]A_3=\begin{bmatrix}\kern 7pt2&-1&\kern 7pt0\\-1&\kern 7pt2&-1\\\kern 7pt0&-1&\kern 7pt2\end{bmatrix}\kern 20ptB_4=\begin{bmatrix}\kern 7pt1&-1\\-1&\kern 7pt2&-1\\&-1&\kern 7pt2&-1\\&&-1&\kern 7pt1\end{bmatrix}A3=210121012B4=1112112111两个矩阵的 −1,2,−1-1,2,-11,2,1 模式是一个 “二阶差分”,就像二阶导数。Ax=λxA\boldsymbol x=\lambda\boldsymbol xAx=λxBx=λxB\boldsymbol x=\lambda\boldsymbol xBx=λx 就像 d2x/dt2=λxd^2x/dt^2=\lambda xd2x/dt2=λx,这些的特征向量 x=sin⁡ktx=\sin ktx=sinktx=cos⁡ktx=\cos ktx=coskt 是傅里叶级数的基。
AnA_nAnBnB_nBn 得到 “离散正弦” 和 “离散余弦”,这些是离散傅里叶变换(DFT:Discrete Fourier Transform)的基。DFT 是所有数字信号处理领域的绝对中心,图像处理中的 JPEG 最常使用的是大小为 n=8n=8n=8B8B_8B8.
解: A3A_3A3 的特征值是 λ=2−2、2\lambda=2-\sqrt2、2λ=2222+22+\sqrt22+2,它们的和是 666A3A_3A3 的迹),积是 444(行列式),特征向量矩阵得到 “离散正弦变换”,特征向量落在正弦曲线上:正弦 Sines=[12120−21−21]余弦 Cosines=[111112−1−11−211−2−12−11−11−1]正弦矩阵 Sin matrix = A3 的特征向量余弦矩阵 Cosine matrix = B4 的特征向量\begin{array}{ll}正弦\,\textrm{\pmb{Sines}}=\begin{bmatrix}1&\sqrt2&1\\\sqrt2&0&-\sqrt2\\1&-\sqrt2&1\end{bmatrix}&余弦\,\textrm{\pmb{Cosines}}=\begin{bmatrix}1&1&1&1\\1&\sqrt2-1&-1&1-\sqrt2\\1&1-\sqrt2&-1&\sqrt2-1\\1&-1&1&-1\end{bmatrix}\\\pmb{正弦矩阵}\,\pmb{\textrm{Sin\,matrix\,=}}\,\pmb A_{\pmb3}\,\pmb{的特征向量}&\pmb{余弦矩阵}\,\textrm{\pmb{Cosine\,matrix\,=}}\,\pmb{B}_{\pmb4}\,\pmb{的特征向量}\end{array}正弦Sines=121202121正弦矩阵Sinmatrix=A3的特征向量余弦Cosines=11111211211111112211余弦矩阵Cosinematrix=B4的特征向量B4B_4B4 的特征值是 λ=2−2、2、2+2\lambda=2-\sqrt2、2、2+\sqrt2λ=2222+2000(与 A3A_3A3 相同加上零特征值),迹仍然是 666,但是行列式是零了。特征向量矩阵得到 4−点4-点4 “离散傅里叶变换”,特征向量落在余弦曲线上。这些特征向量在余弦曲线上的点落在 π/8,3π/8,5π/8,7π/8π/8,3π/8,5π/8,7π/8π/8,3π/8,5π/8,7π/8 处。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值