文章目录
前言:这篇blog是《 Linear Algebra and Its Applications》第六章的一些学习笔记。
正定矩阵
这一章要用到对实对称矩阵 A A A的三角分解 A = L D L T A=LDL^{T} A=LDLT,以及谱定理 A = Q Λ Q T A=Q\Lambda Q^{T} A=QΛQT
1. 正定矩阵
对任意非零实向量 x x x,有 x T A x > 0 x^{T}Ax>0 xTAx>0,则 A A A为正定矩阵。
在线性代数中,正定矩阵是对称矩阵,因为来自二次型;对任一二次型,总可以写成对称矩阵的形式,即 f ( x 1 , x 2 … x n ) = x T A x = ∑ i = 1 n ∑ j = 1 n a i j x i x j f(x_{1}, x_{2}\dots x_{n})=x^{T}Ax=\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}a_{ij}x_{i}x_{j} f(x1,x2…xn)=xTAx=i=1∑nj=1∑naijxixj
如果 A A A是正定矩阵,则 x T A x x^{T}Ax xTAx表示的二次型有最小值,不存在鞍点。
但在矩阵论中,正定矩阵不一定是对称矩阵,例如 [ 1 − 1 1 0 ] \left [ \begin{matrix} 1 & -1 \\ 1 & 0\end{matrix}\right ] [11−10]
1.1. 实对称矩阵是正定矩阵的充要条件
判断实对称矩阵 A A A是否为正定矩阵,有5个充要条件,只要满足其中一个即可。
- x T A x > 0 x^{T}Ax>0 xTAx>0,对所有非零实向量 x x x均成立;
- A A A的所有特征值 λ i \lambda_{i} λi满足 λ i > 0 \lambda_{i}>0 λi>0;
- 所有顺序主子式 A k A_{k} Ak是正的;
- 所有主元(piovts)大于0(最快捷条件);
- A A A能分解成 R T R R^{T}R RTR,其中R的列向量相互独立。
证明:
条件1:定义,证毕。
条件2 ⟺ \Longleftrightarrow ⟺条件1:对 A A A进行分解, A = Q Λ Q T A=Q\Lambda Q^{T} A=QΛQT,有 x T A x = x T Q Λ Q T x x^{T}Ax=x^{T}Q\Lambda Q^{T}x xTAx=xTQΛQTx,令 x T Q = y T x^{T}Q=y^{T} xTQ=yT,则 x T A x = y T Λ y = ∑ i = 1 n λ i y i 2 x^{T}Ax=y^{T}\Lambda y=\sum\limits_{i=1}^{n}\lambda_{i}y_{i}^{2} xTAx=yTΛy=i=1∑nλiyi2,根据条件1,如果实对称矩阵 A A A是正定矩阵,则任意非零向量 x x x, x T A x x^{T}Ax xTAx恒大于0,所以 ∑ i = 1 n λ i y i 2 \sum\limits_{i=1}^{n}\lambda_{i}y_{i}^{2} i=1∑nλiyi2恒大于0,所以 λ i > 0 \lambda_{i}>0 λi>0,证毕。
条件1和2 ⟹ \Longrightarrow ⟹条件3:对于实对称矩阵 A A A,以证明 A 3 A_{3} A3为例,令 x = [ x 1 , x 2 , x 3 , 0 , 0 , 0 , …   ] T x=[x_{1}, x_{2},x_{3},0,0,0,\dots]^{T} x=[x1,x2,x3,0,0,0,…]T,则 x T A x x^{T}Ax xTAx等价于 (1) [ x 1 , x 2 , x 3 ] [ a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ] [ x 1 x 2 x 3 ] [x_{1},x_{2},x_{3}]\left [ \begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{matrix} \right ]\left [ \begin{matrix} x_{1} \\ x_{2} \\ x_{3}\end{matrix} \right ]\tag{1} [x1,x2,x3]⎣⎡a11a21a31a12a22a32a13a23a33⎦⎤⎣⎡x1x2x3⎦⎤(1)
根据条件1,如果实对称矩阵 A A A是正定矩阵,则 x T A x > 0 x^{T}Ax>0 xTAx>0,所以(1)的中间矩阵也应该是正定矩阵,根据条件2,(1)的中间矩阵的所有特征值大于0,所以 A 3 = ( 1 ) 的 中 间 矩 阵 的 所 有 特 征 值 乘 积 > 0 A_{3}=(1)的中间矩阵的所有特征值乘积>0 A3=(1)的中间矩阵的所有特征值乘积>0证毕。方阵的行列式等于所有特征值乘积,在第五章特征值与特征向量中推导过这一结论。
条件3 ⟹ \Longrightarrow ⟹条件4:以 d 3 d_{3} d3为例, d 3 = A 3 A 2 > 0 d_{3}=\frac{A_{3}}{A_{2}}>0 d3=A2A3>0,证毕。关于求 d 3 d_{3} d3用的表达式,在第四章行列式中推导过。
条件4 ⟹ \Longrightarrow ⟹条件1,对 A A A进行三角分解 A = L D L T A=LDL^{T} A=LDLT,则 x T A x = x T L D L T x x^{T}Ax=x^{T}LDL^{T}x xTAx=xTLDLTx,令 y = L T x y=L^{T}x y=LTx,则 x T A x = y T D y x^{T}Ax=y^{T}Dy xTAx=yTDy,对角矩阵 D D D存的是 A A A的主元(pivots),所以 y T D y = ∑ i = 1 n d i y i 2 > 0 y^{T}Dy=\sum\limits_{i=1}^{n}d_{i}y_{i}^{2}>0 yTDy=i=1∑ndiyi2>0可以推出 x T A x > 0 x^{T}Ax>0 xTAx>0
至此,条件1-4相互均可以推导。
条件5 ⟺ \Longleftrightarrow ⟺条件4: A = L D L T = ( L D ) ( D L T ) = R T R A=LDL^{T}=(L\sqrt{D})(\sqrt{D}L^{T})=R^{T}R A=LDLT=(LD)(DLT)=RTR,其中 R = D L T R=\sqrt{D}L^{T} R=DLT;或者条件5 ⟺ \Longleftrightarrow ⟺条件2: A = Q Λ Q T = ( Q Λ ) ( Λ Q T ) = R T R A=Q\Lambda Q^{T}=(Q\sqrt{\Lambda})(\sqrt{\Lambda}Q^{T})=R^{T}R A=QΛQT=(QΛ)(ΛQT)=RTR,其中 R = Λ Q T R=\sqrt{\Lambda}Q^{T} R=ΛQT
1.2. 实对称矩阵是半正定矩阵的充要条件
半正定矩阵就是对任意非零实向量 x x x,有 x T A x ≥ 0 x^{T}Ax\geq0 xTAx≥0,相对正定矩阵多了等于0;相应的充要条件也加上了等号。
- x T A x ≥ 0 x^{T}Ax\geq0 xTAx≥0,对所有非零实向量;
- A A A的所有特征值 λ i \lambda_{i} λi满足 λ i ≥ 0 \lambda_{i}\geq0 λi≥0;
- 所有顺序主子式 A k A_{k} Ak是 ≥ 0 \geq 0 ≥0的;
- 所有主元 p i o v t s ≥ 0 piovts \geq 0 piovts≥0(最快捷条件);
- A A A能分解成 R T R R^{T}R RTR,其中R的列向量相互独立。
证明:考虑 A + ε I A+\varepsilon I A+εI正定,当 ε > 0 \varepsilon > 0 ε>0。
1.3. 实对称矩阵与正定矩阵的分解
实对称矩阵不一定可以三角分解 A = L D L T A=LDL^{T} A=LDLT,但可以 A = Q Λ Q T A=Q\Lambda Q^{T} A=QΛQT分解,正定矩阵两种分解都可以。
A = L D L T A=LDL^{T} A=LDLT与 A = Q Λ Q T A=Q\Lambda Q^{T} A=QΛQT本质上都是二次型配方。
2. 惯性定理
2.1. 合同变换
对于对称方阵 A , B A,B A,B,存在可逆矩阵 C C C,使得 B = C T A C B=C^{T}AC B=CTAC,则 A , B A,B A,B相合。合同变换本质上是对实对称矩阵的分类(上一章提到过,相似变换本质上是对方阵的分类)。
2.2. 惯性定理
对于一个n阶实对称矩阵 A A A,与它合同的实对称矩阵有多个,这些实对角矩阵的对角元中,正数的个数是一定的(叫A的正惯性指数),负数的个数也是一定的(叫A的负惯性指数)。
证明略。
实际使用时,如果 A A A是对称方阵,用三角分解 A = L D L T A=LDL^{T} A=LDLT即可,因为 A , D , Λ A,D,\Lambda A,D,Λ三者相合。
2.3. 惯性定理的推论
任何一个实对称矩阵可以相合到由若干1,若干-1,若干0组成的对角矩阵,即由相合条件约束的某一类实对称矩阵均可相合到该对角矩阵。
证明:
对实对称矩阵
A
A
A进行分解
A
=
Q
Λ
Q
T
A=Q\Lambda Q^{T}
A=QΛQT,所以
A
A
A与
Λ
\Lambda
Λ相合,不妨设
Λ
\Lambda
Λ中
λ
1
…
λ
m
\lambda_{1}\dots\lambda_{m}
λ1…λm是正特征根,
λ
m
+
1
…
λ
i
\lambda_{m+1}\dots\lambda_{i}
λm+1…λi是负特征根,
λ
i
+
1
…
λ
n
\lambda_{i+1}\dots\lambda_{n}
λi+1…λn是零特征根,则
Λ
=
[
λ
1
⋱
λ
m
⋱
λ
i
⋱
λ
n
]
=
[
1
λ
1
⋱
1
λ
m
⋱
1
−
λ
i
⋱
0
]
×
[
1
⋱
1
⋱
−
1
⋱
0
]
×
[
1
λ
1
⋱
1
λ
m
⋱
1
−
λ
i
⋱
0
]
=
C
T
B
C
\begin{aligned} \Lambda & =\left [ \begin{matrix} \lambda_{1} &&&&&& \\ &\ddots &&&&& \\ &&\lambda_{m}&&&& \\ &&&\ddots &&& \\ &&&&\lambda_{i}&& \\ &&&&&\ddots& \\ &&&&&&\lambda_{n} \end{matrix} \right ] \\ & = \left [ \begin{matrix} \frac{1}{\sqrt{\lambda_{1}}} &&&&&& \\ &\ddots &&&&& \\ && \frac{1}{\sqrt{\lambda_{m}}}&&&& \\ &&&\ddots &&& \\ &&&& \frac{1}{\sqrt{-\lambda_{i}}}&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \times \\ & \left [ \begin{matrix} 1 &&&&&& \\ &\ddots &&&&& \\ && 1&&&& \\ &&&\ddots &&& \\ &&&& -1&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \times \left [ \begin{matrix} \frac{1}{\sqrt{\lambda_{1}}} &&&&&& \\ &\ddots &&&&& \\ && \frac{1}{\sqrt{\lambda_{m}}}&&&& \\ &&&\ddots &&& \\ &&&& \frac{1}{\sqrt{-\lambda_{i}}}&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \\ & = C^{T}BC \end{aligned}
Λ=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡λ1⋱λm⋱λi⋱λn⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡λ11⋱λm1⋱−λi1⋱0⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤×⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡1⋱1⋱−1⋱0⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤×⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡λ11⋱λm1⋱−λi1⋱0⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤=CTBC
故 Λ \Lambda Λ与 B B B相合,故 A A A与 B B B相合。证毕。
2.4. 惯性定理的应用
通过 A − n I A-nI A−nI限定实对称矩阵 A A A的特征根区间,例如: A − 3 I A-3I A−3I有2正特征根, A − 5 I A-5I A−5I只有1个正特征根,则 A A A有一个特征根在(3,5)之间。
这里用到了 A − n I A-nI A−nI的特征值,相对于 A A A的特征值也减去n的推论,证明如下:
A x = λ x , ( A − 3 I ) x = λ ′ x Ax=\lambda x, (A-3I)x = \lambda' x Ax=λx,(A−3I)x=λ′x
所以
A x = ( λ ′ + 3 ) x Ax = (\lambda'+3) x Ax=(λ′+3)x
所以 λ ′ = λ − 3 \lambda'=\lambda-3 λ′=λ−3
3. 奇异值分解
3.1. SVD
对矩阵 A m × n A_{m\times n} Am×n,其秩 r = r a n k ( A ) r=rank(A) r=rank(A),则其奇异值分解(Singular Value Decomposition, SVD)表示为 A = U Σ V = ( 正 交 矩 阵 ) m × m ( 对 角 矩 阵 ) m × n ( 正 交 矩 阵 ) n × n A=U\Sigma V=(正交矩阵)_{m\times m}(对角矩阵)_{m\times n}(正交矩阵)_{n\times n} A=UΣV=(正交矩阵)m×m(对角矩阵)m×n(正交矩阵)n×n
其中 U U U的列向量由 A A T AA^{T} AAT的特征向量构成; V V V的列向量由 A T A A^{T}A ATA的特征向量构成; Σ \Sigma Σ的对角元素的前r个被称为奇异值,是 A A T AA^{T} AAT或者 A T A A^{T}A ATA的特征值平方根,其余元素为0。
证明依赖于谱定理,在有了求对称方阵特征根高效算法后,才有了SVD。
证明:
证明分六步进行
-
A
T
A
A^{T}A
ATA一定是对称方阵
又 A T A x = λ x A^{T}Ax=\lambda x ATAx=λx,左乘上 x T x^{T} xT
x T A T A x = λ x T x = ( A x ) T A x ≥ 0 x^{T}A^{T}Ax = \lambda x^{T}x = (Ax)^{T}Ax \geq 0 xTATAx=λxTx=(Ax)TAx≥0
故 λ ≥ 0 \lambda \geq 0 λ≥0
故 A T A A^{T}A ATA至少是半正定矩阵 - 由谱定理
A
T
A
=
V
[
σ
1
2
⋱
σ
r
2
0
⋱
0
]
V
T
=
[
v
1
,
v
2
…
v
n
]
[
σ
1
2
⋱
σ
r
2
0
⋱
0
]
[
v
1
T
v
2
T
⋮
v
n
T
]
\begin{aligned} A^{T}A & = V \left [ \begin{matrix} \sigma_{1}^{2}&&&&& \\ &\ddots&&&& \\ &&\sigma_{r}^{2}&&& \\ &&&0&& \\ &&&&\ddots& \\ &&&&& 0 \end{matrix}\right ]V^{T} \\ & = [v_{1}, v_{2}\dots v_{n}] \left [ \begin{matrix} \sigma_{1}^{2}&&&&& \\ &\ddots&&&& \\ &&\sigma_{r}^{2}&&& \\ &&&0&& \\ &&&&\ddots& \\ &&&&& 0 \end{matrix}\right ] \left [ \begin{matrix} v_{1}^{T}\\ v_{2}^{T}\\ \vdots \\ v_{n}^{T}\ \end{matrix}\right ] \end{aligned}
ATA=V⎣⎢⎢⎢⎢⎢⎢⎡σ12⋱σr20⋱0⎦⎥⎥⎥⎥⎥⎥⎤VT=[v1,v2…vn]⎣⎢⎢⎢⎢⎢⎢⎡σ12⋱σr20⋱0⎦⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎢⎡v1Tv2T⋮vnT ⎦⎥⎥⎥⎤
其中 1 ≤ i ≤ r 1\leq i \leq r 1≤i≤r时, σ i > 0 \sigma_{i}>0 σi>0,当 r < i ≤ n r < i \leq n r<i≤n时, σ i = 0 \sigma_{i}=0 σi=0。
所以, A T A v i = σ i 2 v i , 0 ≤ i ≤ r A^{T}Av_{i}=\sigma^{2}_{i}v_{i}, 0\leq i \leq r ATAvi=σi2vi,0≤i≤r
由于 ∣ ∣ A v i ∣ ∣ 2 = ( A v i ) T ( A v i ) = v i T A T A v i = v i T σ i 2 v i = σ i 2 ||Av_{i}||^{2}=(Av_{i})^{T}(Av_{i})=v_{i}^{T}A^{T}Av_{i}=v_{i}^{T}\sigma^{2}_{i}v_{i}=\sigma^{2}_{i} ∣∣Avi∣∣2=(Avi)T(Avi)=viTATAvi=viTσi2vi=σi2
故 ∣ ∣ A v i ∣ ∣ = σ i ||Av_{i}||=\sigma_{i} ∣∣Avi∣∣=σi - 令
u
i
=
A
v
i
σ
i
,
1
≤
i
≤
r
u_{i}=\frac{Av_{i}}{\sigma_{i}},1\leq i \leq r
ui=σiAvi,1≤i≤r
则 u i u_{i} ui是 A A A的列空间的单位向量。对于 i ≠ j i\neq j i̸=j有 A v i = u i σ i A v j = u j σ j Av_{i}=u_{i}\sigma_{i} \\ Av_{j}=u_{j}\sigma_{j} Avi=uiσiAvj=ujσj则 ( A v i ) T A v j = σ i σ j u i T u j (Av_{i})^{T}Av_{j}=\sigma_{i}\sigma_{j}u_{i}^{T}u_{j} (Avi)TAvj=σiσjuiTuj
左边 = v i T A T A v j = v i T σ j 2 v j = 0 = σ i σ j u i T u j = =v^{T}_{i}A^{T}Av_{j}=v_{i}^{T}\sigma^{2}_{j}v_{j}=0=\sigma_{i}\sigma_{j}u_{i}^{T}u_{j}= =viTATAvj=viTσj2vj=0=σiσjuiTuj=右边
由于 σ i , σ j ≠ 0 \sigma_{i},\sigma_{j}\neq 0 σi,σj̸=0,则 u i T u j = 0 u_{i}^{T}u_{j}=0 uiTuj=0
故 u 1 , u 2 … u r u_{1},u_{2}\dots u_{r} u1,u2…ur相互正交,是 A A A的列空间的标准正交基。 - 扩充
u
1
,
u
2
…
u
r
u_{1},u_{2}\dots u_{r}
u1,u2…ur到
u
1
,
u
2
…
u
r
,
u
r
+
1
…
u
m
u_{1},u_{2}\dots u_{r},u_{r+1}\dots u_{m}
u1,u2…ur,ur+1…um为
R
m
R^{m}
Rm的标准正交基,则
u 1 , u 2 … u r u_{1},u_{2}\dots u_{r} u1,u2…ur是 A A A列空间 C ( A ) C(A) C(A)的标准正交基;
u r + 1 , u r + 2 … u m u_{r+1},u_{r+2}\dots u_{m} ur+1,ur+2…um是 A A A左零空间 N ( A T ) N(A^{T}) N(AT)的标准正交基; - 逐列来看
1 ≤ i ≤ r 1\leq i \leq r 1≤i≤r时, σ i > 0 \sigma_{i}>0 σi>0, A v i = u i σ i Av_{i}=u_{i}\sigma_{i} Avi=uiσi;
r < i ≤ n r < i \leq n r<i≤n时, σ i = 0 \sigma_{i}=0 σi=0, A v i = 0 = u i ⋅ 0 Av_{i}=0=u_{i}·0 Avi=0=ui⋅0。 - 故 A V = U Σ AV=U\Sigma AV=UΣ,所以 A = U Σ V T A=U\Sigma V^{T} A=UΣVT
3.2. SVD的本质
逐列来看
A
U
=
Σ
V
AU=\Sigma V
AU=ΣV,
1
≤
i
≤
r
1\leq i \leq r
1≤i≤r时,
σ
i
>
0
\sigma_{i}>0
σi>0,
A
v
i
=
u
i
σ
i
Av_{i}=u_{i}\sigma_{i}
Avi=uiσi;
r
<
i
≤
n
r < i \leq n
r<i≤n时,
σ
i
=
0
\sigma_{i}=0
σi=0,
A
v
i
=
0
=
u
i
⋅
0
Av_{i}=0=u_{i}·0
Avi=0=ui⋅0。则
u
1
,
u
2
…
u
r
u_{1},u_{2}\dots u_{r}
u1,u2…ur是
A
A
A列空间
C
(
A
)
C(A)
C(A)的标准正交基;
u
r
+
1
,
u
r
+
2
…
u
m
u_{r+1},u_{r+2}\dots u_{m}
ur+1,ur+2…um是
A
A
A左零空间
N
(
A
T
)
N(A^{T})
N(AT)的标准正交基;
v
r
+
1
,
v
r
+
2
…
v
n
v_{r+1},v_{r+2}\dots v_{n}
vr+1,vr+2…vn是
A
A
A零空间
N
(
A
)
N(A)
N(A)的标准正交基;
v
1
,
v
2
…
v
r
v_{1},v_{2}\dots v_{r}
v1,v2…vr是
A
A
A行空间
C
(
A
T
)
C(A^{T})
C(AT)的标准正交基;
可见,SVD是
C
(
A
T
)
C(A^{T})
C(AT)到
C
(
A
)
C(A)
C(A)的极简极优美映射,当
1
≤
i
≤
r
1\leq i \leq r
1≤i≤r
A
[
v
1
…
v
r
]
=
[
u
1
…
u
r
]
[
σ
1
⋱
σ
r
]
A[v_{1}\dots v_{r}]=[u_{1}\dots u_{r}]\left [ \begin{matrix} \sigma_{1}&& \\ &\ddots& \\ &&\sigma_{r} \end{matrix}\right ]
A[v1…vr]=[u1…ur]⎣⎡σ1⋱σr⎦⎤即两个子空间标准正交基的极简极优美变换。
3.3. 求SVD
- 求 A T A A^{T}A ATA的 σ , v \sigma, v σ,v,注意实对称矩阵属于不同特征根的特征向量正交;
- 由 A v i = u i σ i Av_{i}=u_{i}\sigma_{i} Avi=uiσi求出 u i u_{i} ui;
- 有Gram-Schmidt求 u r + 1 … u m u_{r+1}\dots u_{m} ur+1…um。
可见SVD的结果严重不唯一,但是奇异值是唯一的。
3.4. SVD的应用-伪逆
求解线性方程组 A m × n x = b A_{m\times n}x=b Am×nx=b
- 当 b b b在 C ( A ) C(A) C(A),由第二章,利用高斯消去法,解方程,就和我们解多元一次方程组一样;
- 当
b
b
b不再
C
(
A
)
C(A)
C(A),且
A
A
A列满秩,则
R
n
R^{n}
Rn就是
C
(
A
T
)
C(A^{T})
C(AT),利用第三章的最小二乘法,把
b
b
b向
C
(
A
)
C(A)
C(A)投影,在把这个投影点反向映射到
C
(
A
T
)
C(A^{T})
C(AT),得到误差最小的解;
A T ( A x ^ − b ) = 0 ⟹ x ^ = ( A T A ) − 1 A T b A^{T}(A\widehat{x}-b)=0 \Longrightarrow \widehat{x}=(A^{T}A)^{-1}A^{T}b AT(Ax −b)=0⟹x =(ATA)−1ATb - 当 b b b不再 C ( A ) C(A) C(A),且A列不满秩, d i m ( R n ) = d i m ( C ( A T ) ) + d i m ( N ( A ) ) dim(R^{n})=dim(C(A^{T}))+dim(N(A)) dim(Rn)=dim(C(AT))+dim(N(A)), R n R^{n} Rn相对于 C ( A T ) C(A^{T}) C(AT)与 N ( A ) N(A) N(A)是更高维,把 b b b向 C ( A ) C(A) C(A)投影,在把这个投影点反映射到 C ( A T ) C(A^{T}) C(AT)得到反向映射点,这个反向映射点加上 N ( A ) N(A) N(A)中任意一个点都是误差最小解,此时最小二乘法得到的误差最小解不唯一,我们可以利用伪逆求得最短最简单的误差最小解,也就是反向映射点加上 N ( A ) N(A) N(A)中的全零点。
伪逆利用SVD定义,如果
A
=
U
Σ
V
T
A=U\Sigma V^{T}
A=UΣVT,则A的伪逆定义为
A
+
=
V
Σ
+
U
T
A^{+}=V\Sigma^{+} U^{T}
A+=VΣ+UT
其中
Σ
+
\Sigma^{+}
Σ+表示对
Σ
\Sigma
Σ进行转置后,奇异值取倒数。
则 A x = b Ax=b Ax=b的最短最简单误差最小解就是 x + = A + b x^{+}=A^{+}b x+=A+b A + b A^{+}b A+b的意义是把 b b b投影到 C ( A ) C(A) C(A)中,在映射到 C ( A T ) C(A^{T}) C(AT)。
下面是伪逆求解最短最简单的误差最小解的证明。
- 先证明
A
A
A是对角阵的情况,以
A
3
×
4
,
r
(
A
)
=
2
A_{3\times 4}, r(A)=2
A3×4,r(A)=2为例,求最短最简单的误差最小解
x
^
\widehat{x}
x
当 b ∈ C ( A ) b\in C(A) b∈C(A)有
[ σ 1 0 0 0 0 σ 2 0 0 0 0 0 0 ] [ x ^ 1 x ^ 2 x ^ 3 x ^ 4 ] = [ b 1 b 2 0 ] \left [ \begin{matrix} \sigma_{1} & 0 & 0 & 0 \\ 0 & \sigma_{2} & 0 & 0 \\ 0 & 0 & 0 & 0 \end{matrix}\right ] \left [ \begin{matrix} \widehat{x}_{1} \\ \widehat{x}_{2} \\ \widehat{x}_{3} \\ \widehat{x}_{4} \end{matrix}\right ] =\left [ \begin{matrix} b_{1} \\ b_{2} \\ 0 \end{matrix}\right ] ⎣⎡σ1000σ20000000⎦⎤⎣⎢⎢⎡x 1x 2x 3x 4⎦⎥⎥⎤=⎣⎡b1b20⎦⎤则 x ^ 1 = b 1 σ 1 \widehat{x}_{1}=\frac{b_{1}}{\sigma_{1}} x 1=σ1b1, x ^ 2 = b 2 σ 2 \widehat{x}_{2}=\frac{b_{2}}{\sigma_{2}} x 2=σ2b2
定义伪逆
A + = [ 1 σ 1 0 0 0 1 σ 2 0 0 0 0 0 0 0 ] A^{+}=\left [ \begin{matrix} \frac{1}{\sigma_{1}} & 0 & 0 \\ 0 & \frac{1}{\sigma_{2}} & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}\right ] A+=⎣⎢⎢⎡σ110000σ21000000⎦⎥⎥⎤
则 x ^ = A + [ b 1 b 2 0 ] \widehat{x}=A^{+}\left [ \begin{matrix} b_{1} \\ b_{2} \\ 0 \end{matrix}\right ] x =A+⎣⎡b1b20⎦⎤得到最短最简单的误差最小解。
当 b ∉ C ( A ) b\notin C(A) b∈/C(A)时, b = [ b 1 b 2 b 3 ] b=\left [ \begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}\right] b=⎣⎡b1b2b3⎦⎤,仍按照上面的伪逆,仍然可以求得最短解,同时也是误差最小的解 x ^ = A + [ b 1 b 2 b 3 ] = [ b 1 σ 1 b 2 σ 2 0 0 ] \widehat{x}=A^{+}\left [ \begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}\right ]=\left [ \begin{matrix} \frac{b_{1}}{\sigma_{1}} \\ \frac{b_{2}}{\sigma_{2}} \\ 0 \\ 0 \end{matrix}\right ] x =A+⎣⎡b1b2b3⎦⎤=⎣⎢⎢⎡σ1b1σ2b200⎦⎥⎥⎤ - 如果A不是对角阵,则我们可以化成对角阵的形式,回到我们的根本目的,利用最小二乘法的想法求误差最小解,最小化 ∣ ∣ A x − b ∣ ∣ ||Ax-b|| ∣∣Ax−b∣∣,则 ∣ ∣ A x − b ∣ ∣ = ∣ ∣ U Σ V T x − b ∣ ∣ = ∣ ∣ U ( Σ V T x − U T b ) ∣ ∣ = ∣ ∣ Σ V T x − U T b ∣ ∣ \begin{aligned} ||Ax-b|| & =||U\Sigma V^{T}x-b|| \\ & = ||U(\Sigma V^{T}x-U^{T}b)|| \\ & = ||\Sigma V^{T}x-U^{T}b|| \end{aligned} ∣∣Ax−b∣∣=∣∣UΣVTx−b∣∣=∣∣U(ΣVTx−UTb)∣∣=∣∣ΣVTx−UTb∣∣最后一个等号转换用到了,正交变换不改变长度的性质。令 y = V T x y=V^{T}x y=VTx,则 x = V y x=Vy x=Vy,进一步化简 ∣ ∣ A x − b ∣ ∣ = ∣ ∣ Σ V T x − U T b ∣ ∣ = ∣ ∣ Σ y − U T b ∣ ∣ \begin{aligned} ||Ax-b|| & = ||\Sigma V^{T}x-U^{T}b|| \\ & = ||\Sigma y-U^{T}b|| \end{aligned} ∣∣Ax−b∣∣=∣∣ΣVTx−UTb∣∣=∣∣Σy−UTb∣∣此时 Σ \Sigma Σ是对角矩阵,回到了情况1,我们得到 y y y的最短最简单的误差最小解是 y + = Σ + U T b y^{+}=\Sigma^{+}U^{T}b y+=Σ+UTb由于 x = V y x=Vy x=Vy同样是正交变换,不改变长度,进而得到 x x x的最短最简单的误差最小解是 x + = V y + = V Σ + U T b x^{+}=Vy^{+}=V\Sigma^{+}U^{T}b x+=Vy+=VΣ+UTb证毕。
值得一提的是, A A + AA^{+} AA+与 A + A A^{+}A A+A均可看成投影矩阵, A A + b AA^{+}b AA+b把 b b b向 C ( A ) C(A) C(A)投影, A + A a A^{+}Aa A+Aa把 a a a向 C ( A T ) C(A^{T}) C(AT)投影。
本文深入探讨正定矩阵的性质,包括实对称矩阵的正定充要条件和分解方法。此外,介绍了惯性定理及其应用,并详细阐述了奇异值分解(SVD)的概念、求解方法及在求解线性方程组中的应用,尤其是SVD在求解最短最简单误差最小解中的作用。
1915





