一、对称矩阵的性质
可以毫不夸张的说,对称矩阵 S S S 是世界上所能看到的最重要的矩阵 —— 不仅在线性代数理论也是在实际应用中。关于对称矩阵的关键问题,这个问题有两部分答案: 当 S 是对称矩阵时, S x = λ x 有什么特殊的? \pmb{当\,S\,是对称矩阵时,S\boldsymbol x=\lambda\boldsymbol x\,有什么特殊的?} 当S是对称矩阵时,Sx=λx有什么特殊的?当 S = S T S=S^T S=ST 时,我们寻找特征值 λ \lambda λ 和特征向量 x \boldsymbol x x 的特殊性质。对角化 S = X Λ X − 1 S=X\Lambda X^{-1} S=XΛX−1 会反映出 S S S 的对称性,我们取转置 S T = ( X − 1 ) T Λ X T S^T=(X^{-1})^T\Lambda X^T ST=(X−1)TΛXT,由于 S = S T S=S^T S=ST,所以这些是一样的。那么可以猜测第一种形式的 X − 1 X^{-1} X−1 可能等于第二种形式中的 X T X^T XT,就会有 X T X = I X^TX=I XTX=I,此时 X X X 中的每个特征向量和另外的特征向量正交。有以下两个事实:
1、对称矩阵只有实数特征值。
2、特征向量可以选成标准正交的向量。
这
n
n
n 个标准正交的特征向量进到
X
X
X 的列,则每个对称矩阵都可以对角化。对称矩阵的特征向量矩阵
X
X
X 变成了一个正交矩阵
Q
Q
Q。正交矩阵有
Q
−
1
=
Q
T
Q^{-1}=Q^T
Q−1=QT,我们猜测的特征向量矩阵的性质是正确的。注意当我们选择标准正交的特征向量时,此时用
Q
Q
Q 替代了
X
X
X。
为什么是说 “选择” 呢?这是因为特征向量并不一定是单位向量,我们可以处理它的长度,这里我们选择单位向量 —— 长度为一的特征向量,它们标准正交而不仅仅是正交向量。则
A
=
X
Λ
X
−
1
A=X\Lambda X^{-1}
A=XΛX−1 在对称矩阵这种特殊情况下有特殊形式
S
=
Q
Λ
Q
−
1
S=Q\Lambda Q^{-1}
S=QΛQ−1。
(Spectral Theorem 谱定理) 每个对称矩阵都可以分解成 S = Q Λ Q T S=Q\Lambda Q^T S=QΛQT, Λ \Lambda Λ 中是实数特征值, Q Q Q 的列是标准正交的特征向量: 对称对角化 ( Symmetric diagonalization ) S = Q Λ Q T ,且 Q − 1 = Q T ( 6.4.1 ) \pmb{对称对角化(\textrm{Symmetric\,diagonalization})}\kern 10pt{\color{blue}S=Q\Lambda Q^T,且\,Q^{-1}=Q^T}\kern 8pt(6.4.1) 对称对角化(Symmetricdiagonalization)S=QΛQT,且Q−1=QT(6.4.1)
很容易就可以看出 Q Λ Q T Q\Lambda Q^T QΛQT 是对称的,取转置,可以得到 ( Q T ) T Λ T Q T (Q^T)^T\Lambda^TQ^T (QT)TΛTQT,也就是 Q Λ Q T Q\Lambda Q^T QΛQT。比较困难的是要证明每个对称矩阵都是实数特征值 λ ′ s \lambda's λ′s 和标准正交的特征向量 x ′ s \boldsymbol x's x′s。这就是数学上的 “谱定理” 和几何和物理上的 “主轴定理(principal axis theorem)”。下面要证明它!会用三步来说明:
- 通过一个例子来展示 Λ \Lambda Λ 中的实数特征值 λ ′ s \lambda's λ′s 和 Q Q Q 中的标准正交的特征向量 x ′ s \boldsymbol x's x′s.
- 当没有重复的特征值时,证明这些事实。
- 允许有重复的特征值时的证明。(本节的最后)
【例1】当
S
=
[
1
2
2
4
]
S=\begin{bmatrix}1&2\\2&4\end{bmatrix}
S=[1224] 和
S
−
λ
I
=
[
1
−
λ
2
2
4
−
λ
]
S-\lambda I=\begin{bmatrix}1-\lambda&2\\2&4-\lambda\end{bmatrix}
S−λI=[1−λ224−λ] 时,求
λ
′
s
\lambda's
λ′s 和
x
′
s
\boldsymbol x's
x′s.
解:
S
−
λ
I
S-\lambda I
S−λI 的行列式是
λ
2
−
5
λ
\lambda^2-5\lambda
λ2−5λ,则特征值是
0
0
0 和
5
5
5,它们都是实数。我们也可以直接看出特征值:由于
S
S
S 是奇异的,所以
λ
=
0
\lambda=0
λ=0 是一个特征值,由矩阵的迹可以得到
λ
=
5
\lambda=5
λ=5 是另一个特征值:
0
+
5
0+5
0+5 等于
1
+
4
1+4
1+4.
两个特征向量是
(
2
,
−
1
)
(2,-1)
(2,−1) 和
(
1
,
2
)
(1,2)
(1,2) —— 正交但还不是标准正交,
λ
=
0
\lambda=0
λ=0 时的特征向量在
S
S
S 的零空间,
λ
=
5
\lambda=5
λ=5 时的特征向量在列空间。那么这里为什么零空间和列空间垂直呢?基本定理说的是零空间垂直于行空间 —— 不是列空间,但是我们的矩阵是对称的!它的行空间和列空间一样,它的特征向量
(
2
,
−
1
)
(2,-1)
(2,−1) 和
(
1
,
2
)
(1,2)
(1,2) 也一定垂直,这里也确实是垂直的。
这两个特征向量的长度都是
5
\sqrt5
5,都除以
5
\sqrt5
5 就得到了单位向量,将这些单位向量放进
Q
Q
Q 的列中,则
Q
−
1
S
Q
Q^{-1}SQ
Q−1SQ 就是
Λ
\Lambda
Λ,且
Q
−
1
=
Q
T
Q^{-1}=Q^T
Q−1=QT:
Q
−
1
S
Q
=
1
5
[
2
−
1
1
2
]
[
1
2
2
4
]
1
5
[
2
1
−
1
2
]
=
[
0
0
0
5
]
=
Λ
Q^{-1}SQ=\frac{1}{\sqrt5}\begin{bmatrix}2&-1\\1&\kern 7pt2\end{bmatrix}\begin{bmatrix}1&2\\2&4\end{bmatrix}\frac{1}{\sqrt5}\begin{bmatrix}\kern 7pt2&1\\-1&2\end{bmatrix}=\begin{bmatrix}0&0\\0&5\end{bmatrix}=\Lambda
Q−1SQ=51[21−12][1224]51[2−112]=[0005]=Λ现在讨论
n
×
n
n\times n
n×n 的情况,当
S
=
S
T
S=S^T
S=ST 且
S
x
=
λ
x
S\boldsymbol x=\lambda\boldsymbol x
Sx=λx 时
λ
′
s
\lambda's
λ′s 都是实数。
实数特征值 \kern 5pt 实对称矩阵的所有特征值都是实数。
证明: 假设
S
x
=
λ
x
S\boldsymbol x=\lambda\boldsymbol x
Sx=λx,到目前为止我们知道,
λ
\lambda
λ 可能是一个复数
a
+
i
b
a+ib
a+ib(
a
a
a 和
b
b
b)是实数,它的共轭复数是
λ
ˉ
=
a
−
i
b
\bar\lambda=a-ib
λˉ=a−ib,相似的,
x
\boldsymbol x
x 的分量也可能是复数,改变虚部的符号得到
x
ˉ
\bar{\boldsymbol x}
xˉ.
好事是
λ
ˉ
\bar\lambda
λˉ 乘
x
ˉ
\bar{\boldsymbol x}
xˉ 总是
λ
\lambda
λ 乘
x
\boldsymbol x
x 的共轭,所以我们取
S
x
=
λ
x
S\boldsymbol x=\lambda\boldsymbol x
Sx=λx,记住
S
S
S 是实数:
S
x
=
λ
x
得到
S
x
ˉ
=
λ
ˉ
x
ˉ
.
转置得
x
ˉ
T
S
=
x
ˉ
T
λ
ˉ
S\boldsymbol x=\lambda\boldsymbol x\kern 5pt得到\kern 5ptS\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}.\kern 15pt转置得\kern 5pt\bar{\boldsymbol x}^TS=\bar{\boldsymbol x}^T\bar\lambda
Sx=λx得到Sxˉ=λˉxˉ.转置得xˉTS=xˉTλˉ现在取第一个方程与
x
ˉ
\bar{\boldsymbol x}
xˉ 的点积和最后一个方程与
x
\boldsymbol x
x 的点积:
x
ˉ
T
S
x
=
x
ˉ
T
λ
x
和
x
ˉ
T
S
x
=
x
ˉ
T
λ
ˉ
x
(
6.4.2
)
\bar{\boldsymbol x}^TS\boldsymbol x=\bar{\boldsymbol x}^T\lambda\boldsymbol x\kern 15pt和\kern 15pt\bar{\boldsymbol x}^TS\boldsymbol x=\bar{\boldsymbol x}^T\bar\lambda\boldsymbol x\kern 20pt(6.4.2)
xˉTSx=xˉTλx和xˉTSx=xˉTλˉx(6.4.2)左侧的是一样的,所以右侧相等,一个方程是
λ
\lambda
λ,另一个是
λ
ˉ
\bar\lambda
λˉ. 乘积
x
ˉ
T
x
=
∣
x
1
∣
2
+
∣
x
2
∣
2
+
⋯
=
长度的平方
\bar{\boldsymbol x}^T\boldsymbol x=|x_1|^2+|x_2|^2+\cdots=长度的平方
xˉTx=∣x1∣2+∣x2∣2+⋯=长度的平方,这一项不为零。因此
λ
\lambda
λ 一定等于
λ
ˉ
\bar\lambda
λˉ,且
a
+
i
b
a+ib
a+ib 等于
a
−
i
b
a-ib
a−ib,所以
b
=
0
b=0
b=0 且
λ
=
a
=
实数
\lambda=a=实数
λ=a=实数。证毕!
特征向量是求解实数方程
(
S
−
λ
I
)
x
=
0
(S-\lambda I)\boldsymbol x=\boldsymbol 0
(S−λI)x=0 得到的,所以
x
′
s
\boldsymbol x's
x′s 也是实数。重要的事实是它们是垂直的。
正交特征向量 \kern 5pt 实对称矩阵的特征向量(对应于不同的 λ ′ s \lambda's λ′s)永远垂直。
证明: 假设 S x = λ 1 x S\boldsymbol x=\lambda_1\boldsymbol x Sx=λ1x, S y = λ 2 y S\boldsymbol y=\lambda_2\boldsymbol y Sy=λ2y,这里假设 λ 1 ≠ λ 2 \lambda_1\neq\lambda_2 λ1=λ2,第一个方程取与 y \boldsymbol y y 的点积,第二个方程取与 x \boldsymbol x x 的点积: 使用 S T = S ( λ 1 x ) T y = ( S x ) T y = x T S T y = x T S y = x T λ 2 y ( 6.4.3 ) \pmb{使用}\,S^T=S\kern 15pt(\lambda_1\boldsymbol x)^T\boldsymbol y=(S\boldsymbol x)^T\boldsymbol y=\boldsymbol x^TS^T\boldsymbol y=\boldsymbol x^TS\boldsymbol y=\boldsymbol x^T\lambda_2\boldsymbol y\kern 14pt(6.4.3) 使用ST=S(λ1x)Ty=(Sx)Ty=xTSTy=xTSy=xTλ2y(6.4.3)左边是 x T λ 1 y \boldsymbol x^T\lambda_1\boldsymbol y xTλ1y,右边是 x T λ 2 y \boldsymbol x^T\lambda_2\boldsymbol y xTλ2y,由于 λ 1 ≠ λ 2 \lambda_1\neq\lambda_2 λ1=λ2,所以有 x T y = 0 \boldsymbol x^T\boldsymbol y=0 xTy=0,所以 λ 1 \lambda_1 λ1 对应的特征向量 x \boldsymbol x x 垂直于 λ 2 \lambda_2 λ2 对应的特征向量 y \boldsymbol y y.
【例2】 2 × 2 2\times2 2×2 对称矩阵的特征向量有一个特殊形式 : 不太广为人知的 S = [ a b b c ] 有 x 1 = [ b λ 1 − a ] 和 x 2 = [ λ 2 − c b ] ( 6.4.4 ) \pmb{不太广为人知的}\kern 15ptS=\begin{bmatrix}a&b\\b&c\end{bmatrix}\kern 5pt有\kern 5pt\boldsymbol x_1=\begin{bmatrix}b\\\lambda_1-a\end{bmatrix}\kern 5pt和\kern 5pt\boldsymbol x_2=\begin{bmatrix}\lambda_2-c\\b\end{bmatrix}\kern 15pt(6.4.4) 不太广为人知的S=[abbc]有x1=[bλ1−a]和x2=[λ2−cb](6.4.4)这个重点是 x 1 \boldsymbol x_1 x1 和 x 2 \boldsymbol x_2 x2 垂直: x 1 T x 2 = b ( λ 2 − c ) + ( λ 1 − a ) b = b ( λ 1 + λ 2 − a − c ) = 0 \boldsymbol x_1^T\boldsymbol x_2=b(\lambda_2-c)+(\lambda_1-a)b=b(\lambda_1+\lambda_2-a-c)=0 x1Tx2=b(λ2−c)+(λ1−a)b=b(λ1+λ2−a−c)=0因为 λ 1 + λ 2 \lambda_1+\lambda_2 λ1+λ2 等于迹 a + c a+c a+c,所以结果为零,则 x 1 T x 2 = 0 \boldsymbol x_1^T\boldsymbol x_2=0 x1Tx2=0。你可能会注意到特殊的情况 S = I S=I S=I,此时 b 、 λ 1 − a 、 λ 2 − c b、\lambda_1-a、\lambda_2-c b、λ1−a、λ2−c 和 x 1 、 x 2 \boldsymbol x_1、\boldsymbol x_2 x1、x2 都是零,这是因为 λ 1 = λ 2 \lambda_1=\lambda_2 λ1=λ2 是重复的特征值。当然 S = I S=I S=I 也有垂直的特征向量。 对称矩阵 S 有标准正交的特征向量矩阵 Q . 再看一下: 对称 S = X Λ X − 1 变成 S = Q Λ Q T 且 Q T Q = I 这个说明任意的 2 × 2 矩阵是 ( 旋转 ) ( 拉伸 ) ( 旋转回来 ) S = Q Λ Q T = [ q 1 q 2 ] [ λ 1 λ 2 ] [ q 1 T q 2 T ] ( 6.4.5 ) 列 q 1 和 q 2 乘行 λ 1 q 1 T 和 λ 2 q 2 T 得到 S = λ 1 q 1 q 1 T + λ 2 q 2 q 2 T \boxed{\begin{array}{c}\pmb{对称矩阵\,S\,有标准正交的特征向量矩阵\,Q.}\,再看一下:\\\color{blue}对称\kern 10ptS=X\Lambda X^{-1}\kern 5pt变成\kern 5ptS=Q\Lambda Q^T\kern 5pt且\kern 5ptQ^TQ=I\\这个说明任意的\,2\times2\,矩阵是\,\pmb{(旋转)(拉伸)(旋转回来)}\\S=Q\Lambda Q^T=\begin{bmatrix}\\\boldsymbol q_1&\boldsymbol q_2\\\,\end{bmatrix}\begin{bmatrix}\lambda_1\\&\lambda_2\end{bmatrix}\begin{bmatrix}\boldsymbol q_1^T\\\,\\\boldsymbol q_2^T\end{bmatrix}\kern 15pt(6.4.5)\\\pmb{列\,\boldsymbol q_1\,和\,\boldsymbol q_2\,乘行\,\lambda_1\boldsymbol q_1^T\,和\,\lambda_2\boldsymbol q_2^T\,得到\,S=\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T}\end{array}} 对称矩阵S有标准正交的特征向量矩阵Q.再看一下:对称S=XΛX−1变成S=QΛQT且QTQ=I这个说明任意的2×2矩阵是(旋转)(拉伸)(旋转回来)S=QΛQT= q1q2 [λ1λ2] q1Tq2T (6.4.5)列q1和q2乘行λ1q1T和λ2q2T得到S=λ1q1q1T+λ2q2q2T
每个对称矩阵 S = Q Λ Q T = λ 1 q 1 q 1 T + λ 2 q 2 q 2 T + ⋯ + λ n q n q n T ( 6.4.6 ) {\color{blue}{\pmb{每个对称矩阵}\kern 90ptS=Q\Lambda Q^T=\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T+\cdots+\lambda_n\boldsymbol q_n\boldsymbol q_n^T}}\kern 25pt(6.4.6) 每个对称矩阵S=QΛQT=λ1q1q1T+λ2q2q2T+⋯+λnqnqnT(6.4.6)
这些伟大结果的步骤(谱定理):
- 将 A x i = λ i x i A\boldsymbol x_i=\lambda_i\boldsymbol x_i Axi=λixi 写成矩阵形式 A X = X Λ 或 A = X Λ X − 1 \kern 20ptAX=X\Lambda\,或\,A=X\Lambda X^{-1} AX=XΛ或A=XΛX−1
- 标准正交 x i = q i \boldsymbol x_i=\boldsymbol q_i xi=qi 使得 X = Q S = Q Λ Q − 1 = Q Λ Q T X=Q\kern 15ptS=Q\Lambda Q^{-1}=Q\Lambda Q^T X=QS=QΛQ−1=QΛQT
方程(6.4.6)中的 Q Λ Q T Q\Lambda Q^T QΛQT 的列是 Q Λ Q\Lambda QΛ 乘行 Q T Q^T QT,下面是直接的证明:
S 有正确的特征向量,这些 q ′ s 标准正交 S q i = ( λ 1 q 1 q 1 T + λ 2 q 2 q 2 T + ⋯ + λ n q n q n T ) q i = λ i q i ( 6.4.7 ) \pmb{S\,有正确的特征向量,这些\,\boldsymbol q's\,标准正交}\kern 20ptS\boldsymbol q_i=(\lambda_1\boldsymbol q_1\boldsymbol q_1^T+\lambda_2\boldsymbol q_2\boldsymbol q_2^T+\cdots+\lambda_n\boldsymbol q_n\boldsymbol q_n^T)\boldsymbol q_i=\lambda_i\boldsymbol q_i\kern 15pt(6.4.7) S有正确的特征向量,这些q′s标准正交Sqi=(λ1q1q1T+λ2q2q2T+⋯+λnqnqnT)qi=λiqi(6.4.7)
二、实数矩阵的复数特征值
对于任意的实数矩阵,由 A x = λ x A\boldsymbol x=\lambda\boldsymbol x Ax=λx 得到 A x ˉ = λ ˉ x ˉ A\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x} Axˉ=λˉxˉ,若是对称矩阵 S x = λ x S\boldsymbol x=\lambda\boldsymbol x Sx=λx 得到 S x ˉ = λ ˉ x ˉ S\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x} Sxˉ=λˉxˉ, λ \lambda λ 和 x \boldsymbol x x 都是实数,则这两个方程是一样的。但是非对称矩阵会很容易有复数的 λ \lambda λ 和 x \boldsymbol x x,则 A x ˉ = λ ˉ x ˉ A\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x} Axˉ=λˉxˉ 就与 A x = λ x A\boldsymbol x=\lambda\boldsymbol x Ax=λx 不再相同,我么得到了另一个复数特征值(就是 λ ˉ \bar\lambda λˉ)和一个新的特征向量(就是 x ˉ \bar{\boldsymbol x} xˉ):
对于实数矩阵,复数 λ ′ s 和 x ′ s 都是以 “共轭对 ( conjugate pairs ) ” 形式出现的。 λ = a + i b λ ˉ = a − i b 如果 A x = λ x 则 A x ˉ = λ ˉ x ˉ ( 6.4.8 ) \pmb{对于实数矩阵,复数\,\lambda's\,和\,\boldsymbol x's\,都是以\,“共轭对(\textrm{conjugate\,pairs})”\,形式出现的。}\\\begin{matrix}\lambda=a+ib\\\bar{\lambda}=a-ib\end{matrix}\kern 15pt{\color{blue}如果\,A\boldsymbol x=\lambda\boldsymbol x\,则\,A\bar{\boldsymbol x}=\bar\lambda\bar{\boldsymbol x}}\kern 20pt(6.4.8) 对于实数矩阵,复数λ′s和x′s都是以“共轭对(conjugatepairs)”形式出现的。λ=a+ibλˉ=a−ib如果Ax=λx则Axˉ=λˉxˉ(6.4.8)
【例3】
A
=
[
cos
θ
−
sin
θ
sin
θ
cos
θ
]
A=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}
A=[cosθsinθ−sinθcosθ] 的特征值是
λ
1
=
cos
θ
+
i
sin
θ
\lambda_1=\cos\theta+i\sin\theta
λ1=cosθ+isinθ 和
λ
2
=
cos
θ
−
i
sin
θ
\lambda_2=\cos\theta-i\sin\theta
λ2=cosθ−isinθ.
这些特征值都是另一个的共轭,它们分别是
λ
\lambda
λ 和
λ
ˉ
\bar{\lambda}
λˉ,由于
A
A
A 是实数矩阵,所以特征向量一定是
x
\boldsymbol x
x 和
x
ˉ
\bar{\boldsymbol x}
xˉ:
这是
λ
x
A
x
=
[
cos
θ
−
sin
θ
sin
θ
cos
θ
]
[
1
−
i
]
=
(
cos
θ
+
i
sin
θ
)
[
1
−
i
]
这是
λ
ˉ
x
ˉ
A
x
ˉ
=
[
cos
θ
−
sin
θ
sin
θ
cos
θ
]
[
1
i
]
=
(
cos
θ
−
i
sin
θ
)
[
1
i
]
(
6.4.9
)
\begin{array}{ll}这是\,\lambda\boldsymbol x&A\boldsymbol x=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}\begin{bmatrix}\kern 7pt1\\-i\end{bmatrix}=(\cos\theta+i\sin\theta)\begin{bmatrix}\kern 7pt1\\-i\end{bmatrix}\\\\这是\,\bar\lambda\bar{\boldsymbol x}&A\bar{\boldsymbol x}=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\kern 7pt\cos\theta\end{bmatrix}\begin{bmatrix}1\\i\end{bmatrix}=(\cos\theta-i\sin\theta)\begin{bmatrix}1\\i\end{bmatrix}\end{array}\kern 13pt(6.4.9)
这是λx这是λˉxˉAx=[cosθsinθ−sinθcosθ][1−i]=(cosθ+isinθ)[1−i]Axˉ=[cosθsinθ−sinθcosθ][1i]=(cosθ−isinθ)[1i](6.4.9)由于
A
A
A 是实矩阵,所以这些特征向量
(
1
,
−
i
)
(1,-i)
(1,−i) 和
(
1
,
i
)
(1,i)
(1,i) 是共轭复数。
这个旋转矩阵特征值的绝对值是
∣
λ
∣
=
1
|\lambda|=1
∣λ∣=1,因为
cos
2
θ
+
sin
2
θ
=
1
\cos^2\theta+\sin^2\theta=1
cos2θ+sin2θ=1。事实上,每一个正交矩阵
Q
Q
Q 都有特征值
∣
λ
∣
=
1
|\lambda|=1
∣λ∣=1.
三、特征值对比主元
A A A 的特征值和主元是不一样的,对于特征值,我们是求解 det ( A − λ I ) = 0 \det(A-\lambda I)=0 det(A−λI)=0;对于主元,我们使用消元法。目前来说它们的唯一联系是: 主元的乘积 = 行列式 = 特征值的乘积 \pmb{主元的乘积=行列式=特征值的乘积} 主元的乘积=行列式=特征值的乘积假设有一整套主元 d 1 , d 2 , ⋯ , d n d_1,d_2,\cdots,d_n d1,d2,⋯,dn, n n n 个实数特征值 λ 1 , λ 2 , ⋯ , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,⋯,λn,这些 d ′ s d's d′s 和 λ ′ s \lambda's λ′s 是不一样的,但是如果它们来自相同的对称矩阵,这些 d ′ s d's d′s 和 λ ′ s \lambda's λ′s 就有一个隐藏的关系。对称矩阵的主元和特征值有相同的符号: S = S T 正特征值的个数等于它正主元的个数。 特殊情况: S 所有的 λ i > 0 当且仅当所有的主元都是正数。 {\color{blue}S=S^T\,正特征值的个数等于它正主元的个数。}\\特殊情况:S\,所有的\,\lambda_i>0\,当且仅当所有的主元都是正数。 S=ST正特征值的个数等于它正主元的个数。特殊情况:S所有的λi>0当且仅当所有的主元都是正数。这种特殊情况就是正定矩阵(positive definite matrices) 最重要的事实。
【例4】下面这个对称矩阵有一个正特征值和正主元:
符号匹配
S
=
[
1
3
3
1
]
有主元
1
和
−
8
特征值
4
和
−
2
\pmb{符号匹配}\kern 20ptS=\begin{bmatrix}1&3\\3&1\end{bmatrix}\kern 10pt\begin{array}{l}有主元\,1\,和-8\\特征值\,4\,和-2\end{array}
符号匹配S=[1331]有主元1和−8特征值4和−2主元的符号和特征值的符号是匹配的,一个正号一个负号。当矩阵不是对称矩阵时,这个结论可能是错误的:
相反符号
B
=
[
1
6
−
1
−
4
]
有主元
1
和
2
特征值
−
1
和
−
2
\pmb{相反符号}\kern 20ptB=\begin{bmatrix}\kern 7pt1&\kern 7pt6\\-1&-4\end{bmatrix}\kern 10pt\begin{array}{l}有主元\,1\,和\,2\\特征值-1\,和-2\end{array}
相反符号B=[1−16−4]有主元1和2特征值−1和−2
下面是当
S
=
S
T
时,主元和特征值有相同符号的证明。
\color{blue}下面是当\,S=S^T\,时,主元和特征值有相同符号的证明。
下面是当S=ST时,主元和特征值有相同符号的证明。当主元从
U
U
U 的行使用除法提取出来时可以看的比较清晰,此时
S
S
S 就是
L
D
L
T
LDL^T
LDLT,对角主元矩阵
D
D
D 在两个三角矩阵
L
L
L 和
L
T
L^T
LT 之间:
[
1
3
3
1
]
=
[
1
0
3
1
]
[
1
−
8
]
[
1
3
0
1
]
这是
S
=
L
D
L
T
,
它是对称的
。
注意当
L
变换到
I
时,
L
D
L
T
的特征值。
S
变成了
D
。
\begin{bmatrix}1&3\\3&1\end{bmatrix}=\begin{bmatrix}1&0\\\pmb3&1\end{bmatrix}\begin{bmatrix}1\\&-8\end{bmatrix}\begin{bmatrix}1&\pmb3\\0&1\end{bmatrix}\kern 10pt\pmb{这是}\,S=LDL^T,\pmb{它是对称的}。\\\color{blue}注意当\,L\,变换到\,I\,时,\,LDL^T\,的特征值。S\,变成了\,D。
[1331]=[1301][1−8][1031]这是S=LDLT,它是对称的。注意当L变换到I时,LDLT的特征值。S变成了D。
L
D
L
T
LDL^T
LDLT 的特征值是
4
4
4 和
−
2
-2
−2,
I
D
I
T
IDI^T
IDIT 的特征值是
1
1
1 和
−
8
-8
−8(是主元!),随着
L
L
L 中的
′
′
3
′
′
''3''
′′3′′ 变成零,特征值也在改变,但是要改变符号,实数特征值不得不经过零,则矩阵在此刻变成了奇异矩阵,但是当我们改变矩阵时主元一直是
1
1
1 和
−
8
-8
−8,所以它不可能奇异,则在
λ
′
s
\lambda's
λ′s 变为
d
′
s
d's
d′s 的过程中,符号不会改变。
对于任意的
S
=
L
D
L
T
S=LDL^T
S=LDLT 重复证明一下,通过将非对角矩阵的元素变成零,使得
L
L
L 变为
I
I
I,在此过程中,主元不变也不为零,
L
D
L
T
LDL^T
LDLT 的特征值
λ
\lambda
λ 会变成
I
D
I
T
IDI^T
IDIT 的特征值。由于这些特征值在它们向主元的变化过程中不可能会经过零,所以符号不会改变。
λ
′
s
\lambda's
λ′s 和
d
′
s
d's
d′s 有相同的符号。
这个结论将应用线性代数中的两部分结合了起来 —— 主元和特征值。
四、所有对称矩阵都可对角化
当
A
A
A 没有重复的特征值时,特征向量一定是无关的,此时
A
A
A 可以对角化。但是如果有重复的特征值可能导致特征向量的不足,这种情况有时会在非对称矩阵身上发生,但是对称矩阵不存在这种情况。对于对称矩阵
S
=
S
T
S=S^T
S=ST,总是存在足够的特征向量使得它可以对角化。
这是一个证明思路:使用对角矩阵
diag
(
c
,
2
c
,
⋯
,
n
c
)
\textrm{diag}(c,2c,\cdots,nc)
diag(c,2c,⋯,nc) 稍微改变一下
S
S
S,即加上这个对角矩阵,如果
c
c
c 很小时,则新的对称矩阵不会有重复的特征值,那么它会有一整套的标准正交的特征向量。当
c
→
0
c\rightarrow0
c→0 时,我们可以得到原始矩阵
S
S
S 的
n
n
n 个标准正交特征向量,即使
S
S
S 有重复的特征值。
但是这个证明不太完整,在于如何确保小的对角矩阵可以使特征值分开呢?当然这个结论是正确的。
还有一个不同的证明,它来自于可应用于所有方阵
A
A
A 的新的分解法,无论
A
A
A 是否对称。当
S
S
S 是任意的实矩阵时,这个新的分解法可以很快得到
S
=
Q
Λ
Q
T
S=Q\Lambda Q^T
S=QΛQT 且有一整套实标准正交的特征向量。
任意方阵
A
都可以分解成
Q
T
Q
−
1
,
这里
T
是上三角矩阵且有
Q
ˉ
T
=
Q
−
1
.
如果
A
有实数特征值,则
Q
和
T
可以选择成实数:
Q
T
Q
=
I
.
\pmb{任意方阵}\,A\,\pmb{都可以分解成}\,QTQ^{-1},\pmb{这里}\,T\,\pmb{是上三角矩阵且有}\,\bar Q^T=Q^{-1}.\\\pmb{如果}\,A\,\pmb{有实数特征值,则}\,Q\,\pmb和\,T\,\pmb{可以选择成实数:}Q^TQ=I.
任意方阵A都可以分解成QTQ−1,这里T是上三角矩阵且有QˉT=Q−1.如果A有实数特征值,则Q和T可以选择成实数:QTQ=I.这是舒尔定理(Schur’s Theorem). 这里只证明为什么当
S
S
S 对称时
T
T
T 是对角矩阵(
T
=
Λ
T=\Lambda
T=Λ),则
S
S
S 是
Q
Λ
Q
T
Q\Lambda Q^T
QΛQT.
我们知道任意的对称矩阵
S
S
S 有实数特征值,舒尔允许有重复的
λ
′
s
\lambda's
λ′s:
由舒尔的
S
=
Q
T
Q
−
1
S=QTQ^{-1}
S=QTQ−1 可以得到
T
=
Q
T
S
Q
T=Q^TSQ
T=QTSQ,转置后仍然是
Q
T
S
Q
Q^TSQ
QTSQ.
所以当
S
=
S
T
S=S^T
S=ST 时,三角矩阵
T
T
T 是对称的,则
T
T
T 一定是对角矩阵且
T
=
Λ
T=\Lambda
T=Λ.
这个证明了
S
=
Q
Λ
Q
−
1
S=Q\Lambda Q^{-1}
S=QΛQ−1,对称矩阵
S
S
S 在
Q
Q
Q 中有
n
n
n 个标准正交特征向量。
注:这个还有其它的证明,利用奇异值。
五、主要内容总结
- 每个对称矩阵 S S S 都有实数特征值和相互垂直的特征向量。
- 对角化变成了 S = Q Λ Q T S=Q\Lambda Q^T S=QΛQT,其中 Q Q Q 是一个正交特征向量矩阵。
- 所有的对称矩阵都可以对角化,即使它有重复的特征值。
- 当 S = S T S=S^T S=ST 时,特征值和主元有相同的符号。
- 每个方阵都可以 “三角化” 成 A = Q T Q − 1 A=QTQ^{-1} A=QTQ−1,如果 A = S A=S A=S,则 T = Λ T=\Lambda T=Λ。
六、例题
【例5】什么样的矩阵
A
A
A 有特征值
λ
=
1
,
−
1
\lambda=1,-1
λ=1,−1 且特征向量
x
1
=
(
cos
θ
,
sin
θ
)
\boldsymbol x_1=(\cos\theta,\sin\theta)
x1=(cosθ,sinθ),
x
2
=
(
−
sin
θ
,
cos
θ
)
\boldsymbol x_2=(-\sin\theta,\cos\theta)
x2=(−sinθ,cosθ) ?下面那些性质可以提前预测到 ?
A
=
A
T
A
2
=
I
det
A
=
−
1
主元的符号是
+
和
−
A
−
1
=
A
\color{blue}A=A^T\kern 10ptA^2=I\kern 10pt\det A=-1\kern 10pt主元的符号是+和-\kern 10ptA^{-1}=A
A=ATA2=IdetA=−1主元的符号是+和−A−1=A解: 这些性质全都可以预测到!有实数特征值
1
,
−
1
1,-1
1,−1 和标准正交特征向量
x
1
,
x
2
\boldsymbol x_1,\boldsymbol x_2
x1,x2,矩阵
A
=
Q
Λ
Q
T
A=Q\Lambda Q^T
A=QΛQT 一定是对称的。由特征向量是
1
1
1 和
−
1
-1
−1,所以
λ
2
=
1
\lambda^2=1
λ2=1, 则
Λ
2
=
I
\Lambda^2=I
Λ2=I,可得
A
2
=
I
A^2=I
A2=I 和
A
−
1
=
A
A^{-1}=A
A−1=A(这两个是一回事),且
det
A
=
−
1
\det A=-1
detA=−1。由
A
A
A 是对称矩阵可得,两个主元的符号一定和特征值一致,即一正一负。
这个矩阵是一个反射矩阵。
A
A
A 乘上
x
1
\boldsymbol x_1
x1 方向的向量不变,因为
λ
=
1
\lambda=1
λ=1;乘上垂直的
x
2
\boldsymbol x_2
x2 方向的向量会反向,因为
λ
=
−
1
\lambda=-1
λ=−1。反射矩阵
A
=
A
Λ
Q
T
A=A\Lambda Q^T
A=AΛQT 横跨
θ
−
线
\theta-线
θ−线(
θ
−
line
\theta-\textrm{line}
θ−line),用
c
c
c 替代
cos
θ
\cos\theta
cosθ,
s
s
s 替代
sin
θ
\sin\theta
sinθ:
A
=
[
c
−
s
s
c
]
[
1
0
0
−
1
]
[
c
s
−
s
c
]
=
[
c
2
−
s
2
2
c
s
2
c
s
s
2
−
c
2
]
=
[
cos
2
θ
sin
2
θ
sin
2
θ
−
cos
2
θ
]
A=\begin{bmatrix}c&-s\\s&\kern 7ptc\end{bmatrix}\begin{bmatrix}1&\kern 7pt0\\0&-1\end{bmatrix}\begin{bmatrix}\kern 7ptc&s\\-s&c\end{bmatrix}=\begin{bmatrix}c^2-s^2&2cs\\2cs&s^2-c^2\end{bmatrix}=\begin{bmatrix}\cos2\theta&\kern 7pt\sin2\theta\\\sin2\theta&-\cos2\theta\end{bmatrix}
A=[cs−sc][100−1][c−ssc]=[c2−s22cs2css2−c2]=[cos2θsin2θsin2θ−cos2θ]注意向量
x
=
(
1
,
0
)
\boldsymbol x=(1,0)
x=(1,0) 得到
A
x
=
(
cos
2
θ
,
sin
2
θ
)
A\boldsymbol x=(\cos2\theta,\sin2\theta)
Ax=(cos2θ,sin2θ) 是在
2
θ
−
线
2\theta-线
2θ−线 上,而向量
(
cos
2
θ
,
sin
2
θ
)
(\cos2\theta,\sin2\theta)
(cos2θ,sin2θ) 会回到
θ
−
线
\theta-线
θ−线 上得到
x
=
(
1
,
0
)
\boldsymbol x=(1,0)
x=(1,0).
【例6】求
A
3
A_3
A3 和
B
4
B_4
B4 (离散正弦和余弦)的特征值和特征向量。
A
3
=
[
2
−
1
0
−
1
2
−
1
0
−
1
2
]
B
4
=
[
1
−
1
−
1
2
−
1
−
1
2
−
1
−
1
1
]
A_3=\begin{bmatrix}\kern 7pt2&-1&\kern 7pt0\\-1&\kern 7pt2&-1\\\kern 7pt0&-1&\kern 7pt2\end{bmatrix}\kern 20ptB_4=\begin{bmatrix}\kern 7pt1&-1\\-1&\kern 7pt2&-1\\&-1&\kern 7pt2&-1\\&&-1&\kern 7pt1\end{bmatrix}
A3=
2−10−12−10−12
B4=
1−1−12−1−12−1−11
两个矩阵的
−
1
,
2
,
−
1
-1,2,-1
−1,2,−1 模式是一个 “二阶差分”,就像二阶导数。
A
x
=
λ
x
A\boldsymbol x=\lambda\boldsymbol x
Ax=λx 和
B
x
=
λ
x
B\boldsymbol x=\lambda\boldsymbol x
Bx=λx 就像
d
2
x
/
d
t
2
=
λ
x
d^2x/dt^2=\lambda x
d2x/dt2=λx,这些的特征向量
x
=
sin
k
t
x=\sin kt
x=sinkt 和
x
=
cos
k
t
x=\cos kt
x=coskt 是傅里叶级数的基。
A
n
A_n
An 和
B
n
B_n
Bn 得到 “离散正弦” 和 “离散余弦”,这些是离散傅里叶变换(DFT:Discrete Fourier Transform)的基。DFT 是所有数字信号处理领域的绝对中心,图像处理中的 JPEG 最常使用的是大小为
n
=
8
n=8
n=8 的
B
8
B_8
B8.
解:
A
3
A_3
A3 的特征值是
λ
=
2
−
2
、
2
\lambda=2-\sqrt2、2
λ=2−2、2 和
2
+
2
2+\sqrt2
2+2,它们的和是
6
6
6(
A
3
A_3
A3 的迹),积是
4
4
4(行列式),特征向量矩阵得到 “离散正弦变换”,特征向量落在正弦曲线上:
正弦
Sines
=
[
1
2
1
2
0
−
2
1
−
2
1
]
余弦
Cosines
=
[
1
1
1
1
1
2
−
1
−
1
1
−
2
1
1
−
2
−
1
2
−
1
1
−
1
1
−
1
]
正弦矩阵
Sin
matrix
=
A
3
的特征向量
余弦矩阵
Cosine
matrix
=
B
4
的特征向量
\begin{array}{ll}正弦\,\textrm{\pmb{Sines}}=\begin{bmatrix}1&\sqrt2&1\\\sqrt2&0&-\sqrt2\\1&-\sqrt2&1\end{bmatrix}&余弦\,\textrm{\pmb{Cosines}}=\begin{bmatrix}1&1&1&1\\1&\sqrt2-1&-1&1-\sqrt2\\1&1-\sqrt2&-1&\sqrt2-1\\1&-1&1&-1\end{bmatrix}\\\pmb{正弦矩阵}\,\pmb{\textrm{Sin\,matrix\,=}}\,\pmb A_{\pmb3}\,\pmb{的特征向量}&\pmb{余弦矩阵}\,\textrm{\pmb{Cosine\,matrix\,=}}\,\pmb{B}_{\pmb4}\,\pmb{的特征向量}\end{array}
正弦Sines=
12120−21−21
正弦矩阵Sinmatrix=A3的特征向量余弦Cosines=
111112−11−2−11−1−1111−22−1−1
余弦矩阵Cosinematrix=B4的特征向量
B
4
B_4
B4 的特征值是
λ
=
2
−
2
、
2
、
2
+
2
\lambda=2-\sqrt2、2、2+\sqrt2
λ=2−2、2、2+2 和
0
0
0(与
A
3
A_3
A3 相同加上零特征值),迹仍然是
6
6
6,但是行列式是零了。特征向量矩阵得到
4
−
点
4-点
4−点 “离散傅里叶变换”,特征向量落在余弦曲线上。这些特征向量在余弦曲线上的点落在
π
/
8
,
3
π
/
8
,
5
π
/
8
,
7
π
/
8
π/8,3π/8,5π/8,7π/8
π/8,3π/8,5π/8,7π/8 处。