#机器学习--线性代数基础--第四章:相似矩阵及二次型
1、向量内积
定义:设有 n n n 维向量 x , y x,y x,y ,令 [ x , y ] = x 1 y 1 + x 2 y 2 + ⋯ + x n y n [x,y]=x_{1}y_{1}+x_{2}y_{2}+\dots+x_{n}y_{n} [x,y]=x1y1+x2y2+⋯+xnyn ,称 [ x , y ] [x,y] [x,y] 为向量 x x x 与 y y y 的内积。
性质:
1)
[
x
,
y
]
=
[
y
,
x
]
[x,y]=[y,x]
[x,y]=[y,x]
2)
[
λ
x
,
y
]
=
λ
[
x
,
y
]
[\lambda x, y]=\lambda [x,y]
[λx,y]=λ[x,y]
3)
[
x
+
y
,
z
]
=
[
x
,
z
]
+
[
y
,
z
]
[x+y,z]=[x,z]+[y,z]
[x+y,z]=[x,z]+[y,z]
4) 当
x
=
0
x=0
x=0 时,
[
x
,
x
]
=
0
[x,x]=0
[x,x]=0 ;当
x
≠
0
x\neq 0
x=0 时,
[
x
,
x
]
>
0
[x,x]>0
[x,x]>0
5)施瓦茨(Schwarz)不等式:
[
x
,
y
]
2
≤
[
x
,
x
]
[
y
,
y
]
[x,y]^{2}\le [x,x][y,y]
[x,y]2≤[x,x][y,y]
2、向量的长度
定义:令 ∣ ∣ x ∣ ∣ = [ x , x ] = x 1 2 + x 2 2 + ⋯ + x n 2 ||x||=\sqrt{[x,x]}=\sqrt{x_{1}^{2}+x_{2}^{2}+\dots+x_{n}^{2}} ∣∣x∣∣=[x,x]=x12+x22+⋯+xn2 , ∣ ∣ x ∣ ∣ ||x|| ∣∣x∣∣ 称为 n n n 维向量 x x x 的长度或范数。特殊地,当 ∣ ∣ x ∣ ∣ = 1 ||x||=1 ∣∣x∣∣=1 时,称 x x x 为单位向量。
性质:
1)非负性,当
x
≠
0
x\neq 0
x=0 时,
∣
∣
x
∣
∣
>
0
||x||>0
∣∣x∣∣>0 ;当
x
=
0
x=0
x=0 时,
∣
∣
x
∣
∣
=
0
||x||=0
∣∣x∣∣=0
2)齐次性,
∣
∣
λ
x
∣
∣
=
∣
λ
∣
∣
∣
x
∣
∣
||\lambda x||=|\lambda|||x||
∣∣λx∣∣=∣λ∣∣∣x∣∣
3、向量的正交性
定义1:当
x
≠
0
、
y
≠
0
x\neq 0、y\neq 0
x=0、y=0 时,
θ
=
a
r
c
c
o
s
[
x
,
y
]
∣
∣
x
∣
∣
⋅
∣
∣
y
∣
∣
\theta =arccos\frac{ \left [ x,y\right ] }{||x||\cdot||y||}
θ=arccos∣∣x∣∣⋅∣∣y∣∣[x,y]
θ
\theta
θ 称为
n
n
n 维向量
x
x
x 与
y
y
y 的夹角。当
[
x
,
y
]
=
0
[x,y]=0
[x,y]=0 时,称向量
x
x
x 与
y
y
y 正交。显然,零向量与任何向量都正交。
定义2:设 n n n 维向量 e 1 , e 2 , … , e r e_{1},e_{2},\dots,e_{r} e1,e2,…,er 是向量空间 V ( V ⊆ R n ) V(V\subseteq R^{n}) V(V⊆Rn) 的一个基,如果 e 1 , e 2 , … , e r e_{1},e_{2},\dots,e_{r} e1,e2,…,er 两两正交,且都是单位向量,则称 e 1 , e 2 , … , e r e_{1},e_{2},\dots,e_{r} e1,e2,…,er 是 V V V 的一个标准正交基。
定义3:设 a 1 , a 2 , … , a r a_{1},a_{2},\dots,a_{r} a1,a2,…,ar 是向量空间 V V V 的一个基,我们把求 V V V 的一个标准正交基的操作称为把基 a 1 , a 2 , … , a r a_{1},a_{2},\dots,a_{r} a1,a2,…,ar 标准正交化。
定义4:如果 n n n 阶矩阵 A A A 满足 A T A = E A^{T}A=E ATA=E (即 A − 1 = A T A^{-1}=A^{T} A−1=AT ),那么称 A A A 为正交矩阵,简称正交阵。
定义5:若 P P P 为正交矩阵,则线性变换 y = P x y=Px y=Px 称为正交变换。
定理:
1)若
n
n
n 维向量
a
1
,
a
2
,
…
,
a
r
a_{1},a_{2},\dots,a_{r}
a1,a2,…,ar 是一组两两正交的非零向量,则
a
1
,
a
2
,
…
,
a
r
a_{1},a_{2},\dots,a_{r}
a1,a2,…,ar 线性无关。
2)方阵
A
A
A 为正交矩阵的充分必要条件是
A
A
A 的列(行)向量都是单位向量,且两两正交。
3)我们可以用以下办法把
a
1
,
a
2
,
…
,
a
r
a_{1},a_{2},\dots,a_{r}
a1,a2,…,ar 标准正交化:取
b
1
=
a
1
,
b
2
=
a
2
−
[
b
1
,
a
2
]
[
b
1
,
b
1
]
b
1
,
…
b
r
=
a
r
−
[
b
1
,
a
r
]
[
b
1
,
b
1
]
b
1
−
[
b
2
,
a
r
]
[
b
2
,
b
2
]
b
2
−
⋯
−
[
b
r
−
1
,
a
r
]
[
b
r
−
1
,
b
r
−
1
]
b
r
−
1
b_{1}=a_{1},\\b2=a_{2}-\frac{[b_{1},a_{2}]}{[b_{1},b_{1}]}b_{1},\\\dots\\b_{r}=a_{r}-\frac{[b_{1},a_{r}]}{[b_{1},b_{1}]}b_{1}-\frac{[b_{2},a_{r}]}{[b_{2},b_{2}]}b_{2}-\dots-\frac{[b_{r-1},a_{r}]}{[b_{r-1},b_{r-1}]}b_{r-1}
b1=a1,b2=a2−[b1,b1][b1,a2]b1,…br=ar−[b1,b1][b1,ar]b1−[b2,b2][b2,ar]b2−⋯−[br−1,br−1][br−1,ar]br−1
然后把它们单位化,即取
e
1
=
1
∣
∣
b
1
∣
∣
b
1
,
e
2
=
1
∣
∣
b
2
∣
∣
b
2
,
…
,
e
r
=
1
∣
∣
b
r
∣
∣
b
r
e_{1}=\frac{1}{||b_{1}||}b_{1},e_{2}=\frac{1}{||b_{2}||}b_{2},\dots,e_{r}=\frac{1}{||b_{r}||}b_{r}
e1=∣∣b1∣∣1b1,e2=∣∣b2∣∣1b2,…,er=∣∣br∣∣1br
就是
V
V
V 的一个标准正交基。并把从线性无关向量组
a
1
,
a
2
,
…
,
a
r
a_{1},a_{2},\dots,a_{r}
a1,a2,…,ar 导出正交向量组
b
1
,
b
2
,
…
,
b
r
b_{1},b_{2},\dots,b_{r}
b1,b2,…,br 的过程称为施密特(Schmidt)正交化,满足:对于任何
k
(
1
≤
k
≤
r
)
k(1\le k\le r)
k(1≤k≤r) ,向量组
b
1
,
b
2
,
…
,
b
k
b_{1},b_{2},\dots,b_{k}
b1,b2,…,bk 与
a
1
,
a
2
,
…
,
a
k
a_{1},a_{2},\dots,a_{k}
a1,a2,…,ak 等价。
4、方阵的特征值与特征向量
定义1:设 A A A 是 n n n 阶矩阵,如果数 λ \lambda λ 和 n n n 维非零列向量 x x x 使关系式 A x = λ x Ax=\lambda x Ax=λx 成立,那么,数 λ \lambda λ 称为矩阵 A A A 的特征值,非零向量 x x x 称为 A A A 的对应于特征值 λ \lambda λ 的特征向量。
定义2:定义1中的关系式可写成 ( A − λ E ) x = 0 (A-\lambda E)x=0 (A−λE)x=0 ,这是 n n n 个未知数 n n n 个方程的齐次线性方程组,它有非零解的充分必要条件是系数行列式 ∣ A − λ E ∣ = 0 |A-\lambda E|=0 ∣A−λE∣=0 ,这是以 λ \lambda λ 为未知数的一元 n n n 次方程,称为矩阵 A A A 的特征方程,其左端 ∣ A − λ E ∣ |A-\lambda E| ∣A−λE∣ 是 λ \lambda λ 的 n n n 次多项式,记作 f ( λ ) f(\lambda) f(λ) ,称为矩阵 A A A 的特征多项式。
定理:
1)设
n
n
n 阶矩阵
A
=
(
a
i
j
)
A=(a_{ij})
A=(aij) 的特征值为
λ
1
,
λ
2
,
…
,
λ
n
\lambda_{1},\lambda_{2},\dots,\lambda_{n}
λ1,λ2,…,λn ,则有:
(i)
λ
1
+
λ
2
+
⋯
+
λ
n
=
a
11
+
a
22
+
⋯
+
a
n
n
\lambda_{1}+\lambda_{2}+\dots+\lambda_{n}=a_{11}+a_{22}+\dots+a_{nn}
λ1+λ2+⋯+λn=a11+a22+⋯+ann
(ii)
λ
1
λ
2
…
λ
n
=
∣
A
∣
\lambda_{1}\lambda_{2}\dots \lambda_{n}=|A|
λ1λ2…λn=∣A∣
(iii)
A
A
A 是可逆矩阵的充分必要条件是它的
n
n
n 个特征值不全为零。
2)设
λ
=
λ
i
\lambda=\lambda_{i}
λ=λi 为矩阵
A
A
A 的一个特征值,则由方程
(
A
−
λ
i
E
)
x
=
0
(A-\lambda_{i}E)x=0
(A−λiE)x=0 可求得非零解
x
=
p
i
x=p_{i}
x=pi ,那么
p
i
p_{i}
pi 便是
A
A
A 的对应于特征值
λ
i
\lambda_{i}
λi 的特征向量。
3)设
λ
1
,
λ
2
,
…
,
λ
m
\lambda_{1},\lambda_{2},\dots,\lambda_{m}
λ1,λ2,…,λm 是方阵
A
A
A 的
m
m
m 个特征值,
p
1
,
p
2
,
…
,
p
m
p_{1},p_{2},\dots,p_{m}
p1,p2,…,pm 依次是与之对应的特征向量,如果
λ
1
,
λ
2
,
…
,
λ
m
\lambda_{1},\lambda_{2},\dots,\lambda_{m}
λ1,λ2,…,λm 各不相等,则
p
1
,
p
2
,
…
,
p
m
p_{1},p_{2},\dots,p_{m}
p1,p2,…,pm 线性无关。
4)设
λ
1
\lambda_{1}
λ1 和
λ
2
\lambda_{2}
λ2 是方阵
A
A
A 的两个不同的特征值,
ξ
1
,
ξ
2
,
…
,
ξ
s
\xi_{1},\xi_{2},\dots,\xi_{s}
ξ1,ξ2,…,ξs 和
η
1
,
η
2
,
…
,
η
t
\eta_{1},\eta_{2},\dots,\eta_{t}
η1,η2,…,ηt 分别是对应于
λ
1
\lambda_{1}
λ1 和
λ
2
\lambda_{2}
λ2 的线性无关的特征向量,则
ξ
1
,
ξ
2
,
…
,
ξ
s
,
η
1
,
η
2
,
…
,
η
t
\xi_{1},\xi_{2},\dots,\xi_{s},\eta_{1},\eta_{2},\dots,\eta_{t}
ξ1,ξ2,…,ξs,η1,η2,…,ηt 线性无关。
5、相似矩阵
定义:设 A 、 B A、B A、B 都是 n n n 阶矩阵,若有可逆矩阵 P P P ,使 P − 1 A P = B P^{-1}AP=B P−1AP=B ,则称 B B B 是 A A A 的相似矩阵,或者说矩阵 A A A 与 B B B 相似。对 A A A 进行运算 P − 1 A P P^{-1}AP P−1AP 称为对 A A A 进行相似变换,特殊地,如果矩阵 B B B 是对角矩阵,这就称为把矩阵 A A A 对角化。可逆矩阵 P P P 称为把 A A A 变成 B B B 的相似变换矩阵。
定理:
1)若
n
n
n 阶矩阵
A
A
A 与
B
B
B 相似,则
A
A
A 与
B
B
B 的特征多项式相同,从而
A
A
A 与
B
B
B 的特征值亦相同。
2)若
n
n
n 阶矩阵
A
A
A 与对角矩阵
Λ
\Lambda
Λ 相似,则对角矩阵
Λ
\Lambda
Λ 的对角线元素即是
A
A
A 的
n
n
n 个特征值。
3)
n
n
n 阶矩阵
A
A
A 与对角矩阵相似(即
A
A
A 能对角化)的充分必要条件是
A
A
A 有
n
n
n 个线性无关的特征向量。
4)如果
n
n
n 阶矩阵
A
A
A 的
n
n
n 个特征值互不相等,则
A
A
A 与对角矩阵相似。
5)对称矩阵的特征值为实数。
6)设
λ
1
,
λ
2
\lambda_{1},\lambda_{2}
λ1,λ2 是对称矩阵
A
A
A 的两个特征值,
p
1
,
p
2
p_{1},p_{2}
p1,p2 是对应的特征向量,若
λ
1
≠
λ
2
\lambda_{1}\neq \lambda_{2}
λ1=λ2 ,则
p
1
p_{1}
p1 与
p
2
p_{2}
p2 正交。
7)设
A
A
A 为
n
n
n 阶对称矩阵,则必有正交矩阵
P
P
P ,使
P
−
1
A
P
=
P
T
A
P
=
Λ
P^{-1}AP=P^{T}AP=\Lambda
P−1AP=PTAP=Λ ,其中
Λ
\Lambda
Λ 是以
A
A
A 的
n
n
n 个特征值为对角元的对角矩阵。
8)设
A
A
A 为
n
n
n 阶对称矩阵,
λ
\lambda
λ 是
A
A
A 的特征方程的
k
k
k 重根,则矩阵
A
−
λ
E
A-\lambda E
A−λE 的秩
R
(
A
−
λ
E
)
=
n
−
k
R(A-\lambda E)=n-k
R(A−λE)=n−k ,从而对应特征值
λ
\lambda
λ 恰有
k
k
k 个线性无关的特征向量。
6、二次型及其标准形
定义1:含有 n n n 个变量 x 1 , x 2 , … , x n x_{1},x_{2},\dots,x_{n} x1,x2,…,xn 的二次齐次函数 f ( x 1 , x 2 , … , x n ) = a 11 x 1 2 + a 22 x 2 2 + ⋯ + a n n x n 2 + 2 a 12 x 1 x 2 + 2 a 13 x 1 x 3 + ⋯ + 2 a n − 1 , n x n − 1 x n f(x_{1},x_{2},\dots,x_{n})=a_{11}x^{2}_{1}+a_{22}x^{2}_{2}+\dots+a_{nn}x^{2}_{n}+2a_{12}x_{1}x_{2}+2a_{13}x_{1}x_{3}+\dots+2a_{n-1,n}x_{n-1}x_{n} f(x1,x2,…,xn)=a11x12+a22x22+⋯+annxn2+2a12x1x2+2a13x1x3+⋯+2an−1,nxn−1xn 称为二次型,特殊地,将只包含平方项的二次型称为标准形(法式),若标准形的系数只在 1 , − 1 , 0 1,-1,0 1,−1,0 三个数中取值,则称为规范形。
定义2:二次型和对称矩阵之间存在一一对应的关系,因此,我们把对称矩阵 A A A 叫做二次型 f f f 的矩阵,也把 f f f 叫做对称矩阵 A A A 的二次型,对称矩阵 A A A 的秩就叫做二次型 f f f 的秩。
定义3:设 A A A 和 B B B 是 n n n 阶矩阵,若有可逆矩阵 P P P ,使 B = P t A P B=P^{t}AP B=PtAP ,则称矩阵 A A A 与 B B B 合同。
定义4:二次型的标准形中正系数的个数称为二次型的正惯性指数,负系数的个数称为负惯性指数。
定义5:设二次型 f ( x ) = x T A x f(x)=x^{T}Ax f(x)=xTAx ,如果对任何 x ≠ 0 x\neq0 x=0 ,都有 f ( x ) > 0 f(x)>0 f(x)>0 (显然 f ( 0 ) = 0 f(0)=0 f(0)=0 ),则称 f f f 为正定二次型,并称对称矩阵 A A A 是正定的;如果对任何 x ≠ 0 x\neq0 x=0 都有 f ( x ) < 0 f(x)<0 f(x)<0 ,则称 f f f 为负定二次型,并称对称矩阵 A A A 是负定的。
定理:
1)任给二次型
f
=
∑
i
,
j
=
1
n
a
i
j
x
i
x
j
(
a
i
j
=
a
j
i
)
f=\sum_{i,j=1}^{n}a_{ij}x_{i}x_{j}(a_{ij}=a_{ji})
f=∑i,j=1naijxixj(aij=aji) ,总有正交变换
x
=
P
y
x=Py
x=Py ,使
f
f
f 化为标准形
f
=
λ
1
y
1
2
+
λ
2
y
2
2
+
⋯
+
λ
n
y
n
2
f=\lambda_{1}y_{1}^{2}+\lambda_{2}y_{2}^{2}+\dots+\lambda_{n}y_{n}^{2}
f=λ1y12+λ2y22+⋯+λnyn2 ,其中
λ
1
,
λ
2
,
…
,
λ
n
\lambda_{1},\lambda_{2},\dots,\lambda_{n}
λ1,λ2,…,λn 是
f
f
f 的矩阵
A
=
(
a
i
j
)
A=(a_{ij})
A=(aij) 的特征值。
2)任给 n n n 元二次型 f ( x ) = x T A x f(x)=x^{T}Ax f(x)=xTAx ( A T = A ) (A^{T}=A) (AT=A) ,总有可逆变换 x = C z x=C_{z} x=Cz ,使 f ( C z ) f(Cz) f(Cz) 为规范形。
3)惯性定理:设二次型 f = x T A x f=x^{T}Ax f=xTAx 的秩为 r r r ,且有两个可逆变换 x = C y x=Cy x=Cy 及 x = P z x=Pz x=Pz 使 f = k 1 y 1 2 + k 2 y 2 2 + ⋯ + k r y r 2 f=k_{1}y_{1}^{2}+k_{2}y_{2}^{2}+\dots+k_{r}y_{r}^{2} f=k1y12+k2y22+⋯+kryr2 ( k i ≠ 0 ) (k_{i}\neq0) (ki=0) 及 f = λ 1 z 1 2 + λ 2 z 2 2 + ⋯ + λ r z r 2 f=\lambda_{1}z_{1}^{2}+\lambda_{2}z_{2}^{2}+\dots+\lambda_{r}z_{r}^{2} f=λ1z12+λ2z22+⋯+λrzr2 ( λ i ≠ 0 ) (\lambda_{i}\neq0) (λi=0) ,则 k 1 , … , k r k_{1},\dots,k_{r} k1,…,kr 中正数的个数与 λ 1 , … , λ r \lambda_{1},\dots,\lambda_{r} λ1,…,λr 中正数个数相等。
4) n n n 元二次型 f = x T A x f=x^{T}Ax f=xTAx 为正定的充分必要条件是:它的标准形的 n n n 个系数全为正,即它的规范形的 n n n 个系数全为 1 1 1 ,亦即它的正惯性指数等于 n n n 。
5)对称矩阵 A A A 为正定的充分必要条件是: A A A 的特征值全为正。
6)对称矩阵 A A A 为正定的充分必要条件是: A A A 的各阶主子式都为正,即 a 11 > 0 , ∣ a 11 a 12 a 21 a 22 ∣ > 0 , … , ∣ a 11 … a 1 n ⋮ ⋮ a n 1 … a n n ∣ > 0 a_{11}>0,\begin{vmatrix} a_{11}&a_{12}\\ a_{21}&a_{22} \end{vmatrix} > 0,\dots,\begin{vmatrix}a_{11} & \dots & a_{1n}\\ \vdots & &\vdots \\ a_{n1}&\dots &a_{nn}\end{vmatrix}>0 a11>0,∣ ∣a11a21a12a22∣ ∣>0,…,∣ ∣a11⋮an1……a1n⋮ann∣ ∣>0 ,对称矩阵 A A A 为负定的充分必要条件是:奇数阶主子式为负,而偶数阶主子式为正,即 ( − 1 ) r ∣ a 11 … a 1 r ⋮ ⋮ a r 1 … a r r ∣ > 0 (-1)^{r}\begin{vmatrix}a_{11}&\dots&a_{1r}\\ \vdots && \vdots \\ a_{r1} &\dots&a_{rr}\end{vmatrix}>0 (−1)r∣ ∣a11⋮ar1……a1r⋮arr∣ ∣>0 ( r = 1 , 2 , … , n ) . (r=1,2,\dots,n). (r=1,2,…,n).