线性代数及其应用:第六章 正定矩阵与奇异值分解

本文深入探讨正定矩阵的性质,包括实对称矩阵的正定充要条件和分解方法。此外,介绍了惯性定理及其应用,并详细阐述了奇异值分解(SVD)的概念、求解方法及在求解线性方程组中的应用,尤其是SVD在求解最短最简单误差最小解中的作用。


  前言:这篇blog是《 Linear Algebra and Its Applications》第六章的一些学习笔记。

正定矩阵

  这一章要用到对实对称矩阵 A A A的三角分解 A = L D L T A=LDL^{T} A=LDLT,以及谱定理 A = Q Λ Q T A=Q\Lambda Q^{T} A=QΛQT

1. 正定矩阵

  对任意非零实向量 x x x,有 x T A x > 0 x^{T}Ax>0 xTAx>0,则 A A A为正定矩阵。

  在线性代数中,正定矩阵是对称矩阵,因为来自二次型;对任一二次型,总可以写成对称矩阵的形式,即 f ( x 1 , x 2 … x n ) = x T A x = ∑ i = 1 n ∑ j = 1 n a i j x i x j f(x_{1}, x_{2}\dots x_{n})=x^{T}Ax=\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}a_{ij}x_{i}x_{j} f(x1,x2xn)=xTAx=i=1nj=1naijxixj

如果 A A A是正定矩阵,则 x T A x x^{T}Ax xTAx表示的二次型有最小值,不存在鞍点。

  但在矩阵论中,正定矩阵不一定是对称矩阵,例如 [ 1 − 1 1 0 ] \left [ \begin{matrix} 1 & -1 \\ 1 & 0\end{matrix}\right ] [1110]

1.1. 实对称矩阵是正定矩阵的充要条件

  判断实对称矩阵 A A A是否为正定矩阵,有5个充要条件,只要满足其中一个即可。

  1. x T A x > 0 x^{T}Ax>0 xTAx>0,对所有非零实向量 x x x均成立;
  2. A A A的所有特征值 λ i \lambda_{i} λi满足 λ i > 0 \lambda_{i}>0 λi>0
  3. 所有顺序主子式 A k A_{k} Ak是正的;
  4. 所有主元(piovts)大于0(最快捷条件);
  5. A A A能分解成 R T R R^{T}R RTR,其中R的列向量相互独立。

证明:

条件1:定义,证毕。

条件2 ⟺ \Longleftrightarrow 条件1:对 A A A进行分解, A = Q Λ Q T A=Q\Lambda Q^{T} A=QΛQT,有 x T A x = x T Q Λ Q T x x^{T}Ax=x^{T}Q\Lambda Q^{T}x xTAx=xTQΛQTx,令 x T Q = y T x^{T}Q=y^{T} xTQ=yT,则 x T A x = y T Λ y = ∑ i = 1 n λ i y i 2 x^{T}Ax=y^{T}\Lambda y=\sum\limits_{i=1}^{n}\lambda_{i}y_{i}^{2} xTAx=yTΛy=i=1nλiyi2,根据条件1,如果实对称矩阵 A A A是正定矩阵,则任意非零向量 x x x x T A x x^{T}Ax xTAx恒大于0,所以 ∑ i = 1 n λ i y i 2 \sum\limits_{i=1}^{n}\lambda_{i}y_{i}^{2} i=1nλiyi2恒大于0,所以 λ i > 0 \lambda_{i}>0 λi>0,证毕。

条件1和2 ⟹ \Longrightarrow 条件3:对于实对称矩阵 A A A,以证明 A 3 A_{3} A3为例,令 x = [ x 1 , x 2 , x 3 , 0 , 0 , 0 , …   ] T x=[x_{1}, x_{2},x_{3},0,0,0,\dots]^{T} x=[x1,x2,x3,0,0,0,]T,则 x T A x x^{T}Ax xTAx等价于 (1) [ x 1 , x 2 , x 3 ] [ a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ] [ x 1 x 2 x 3 ] [x_{1},x_{2},x_{3}]\left [ \begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{matrix} \right ]\left [ \begin{matrix} x_{1} \\ x_{2} \\ x_{3}\end{matrix} \right ]\tag{1} [x1,x2,x3]a11a21a31a12a22a32a13a23a33x1x2x3(1)

根据条件1,如果实对称矩阵 A A A是正定矩阵,则 x T A x > 0 x^{T}Ax>0 xTAx>0,所以(1)的中间矩阵也应该是正定矩阵,根据条件2,(1)的中间矩阵的所有特征值大于0,所以 A 3 = ( 1 ) 的 中 间 矩 阵 的 所 有 特 征 值 乘 积 > 0 A_{3}=(1)的中间矩阵的所有特征值乘积>0 A3=(1)>0证毕。方阵的行列式等于所有特征值乘积,在第五章特征值与特征向量中推导过这一结论。

条件3 ⟹ \Longrightarrow 条件4:以 d 3 d_{3} d3为例, d 3 = A 3 A 2 > 0 d_{3}=\frac{A_{3}}{A_{2}}>0 d3=A2A3>0,证毕。关于求 d 3 d_{3} d3用的表达式,在第四章行列式中推导过。

条件4 ⟹ \Longrightarrow 条件1,对 A A A进行三角分解 A = L D L T A=LDL^{T} A=LDLT,则 x T A x = x T L D L T x x^{T}Ax=x^{T}LDL^{T}x xTAx=xTLDLTx,令 y = L T x y=L^{T}x y=LTx,则 x T A x = y T D y x^{T}Ax=y^{T}Dy xTAx=yTDy,对角矩阵 D D D存的是 A A A的主元(pivots),所以 y T D y = ∑ i = 1 n d i y i 2 > 0 y^{T}Dy=\sum\limits_{i=1}^{n}d_{i}y_{i}^{2}>0 yTDy=i=1ndiyi2>0可以推出 x T A x > 0 x^{T}Ax>0 xTAx>0

至此,条件1-4相互均可以推导。

条件5 ⟺ \Longleftrightarrow 条件4: A = L D L T = ( L D ) ( D L T ) = R T R A=LDL^{T}=(L\sqrt{D})(\sqrt{D}L^{T})=R^{T}R A=LDLT=(LD )(D LT)=RTR,其中 R = D L T R=\sqrt{D}L^{T} R=D LT;或者条件5 ⟺ \Longleftrightarrow 条件2: A = Q Λ Q T = ( Q Λ ) ( Λ Q T ) = R T R A=Q\Lambda Q^{T}=(Q\sqrt{\Lambda})(\sqrt{\Lambda}Q^{T})=R^{T}R A=QΛQT=(QΛ )(Λ QT)=RTR,其中 R = Λ Q T R=\sqrt{\Lambda}Q^{T} R=Λ QT

1.2. 实对称矩阵是半正定矩阵的充要条件

  半正定矩阵就是对任意非零实向量 x x x,有 x T A x ≥ 0 x^{T}Ax\geq0 xTAx0,相对正定矩阵多了等于0;相应的充要条件也加上了等号。

  1. x T A x ≥ 0 x^{T}Ax\geq0 xTAx0,对所有非零实向量;
  2. A A A的所有特征值 λ i \lambda_{i} λi满足 λ i ≥ 0 \lambda_{i}\geq0 λi0
  3. 所有顺序主子式 A k A_{k} Ak ≥ 0 \geq 0 0的;
  4. 所有主元 p i o v t s ≥ 0 piovts \geq 0 piovts0(最快捷条件);
  5. A A A能分解成 R T R R^{T}R RTR,其中R的列向量相互独立。

证明:考虑 A + ε I A+\varepsilon I A+εI正定,当 ε > 0 \varepsilon > 0 ε>0

1.3. 实对称矩阵与正定矩阵的分解

  实对称矩阵不一定可以三角分解 A = L D L T A=LDL^{T} A=LDLT,但可以 A = Q Λ Q T A=Q\Lambda Q^{T} A=QΛQT分解,正定矩阵两种分解都可以。

   A = L D L T A=LDL^{T} A=LDLT A = Q Λ Q T A=Q\Lambda Q^{T} A=QΛQT本质上都是二次型配方。


2. 惯性定理

2.1. 合同变换

  对于对称方阵 A , B A,B A,B,存在可逆矩阵 C C C,使得 B = C T A C B=C^{T}AC B=CTAC,则 A , B A,B A,B相合。合同变换本质上是对实对称矩阵的分类(上一章提到过,相似变换本质上是对方阵的分类)。

2.2. 惯性定理

  对于一个n阶实对称矩阵 A A A,与它合同的实对称矩阵有多个,这些实对角矩阵的对角元中,正数的个数是一定的(叫A的正惯性指数),负数的个数也是一定的(叫A的负惯性指数)。

证明略。

  实际使用时,如果 A A A是对称方阵,用三角分解 A = L D L T A=LDL^{T} A=LDLT即可,因为 A , D , Λ A,D,\Lambda A,D,Λ三者相合。

2.3. 惯性定理的推论

  任何一个实对称矩阵可以相合到由若干1,若干-1,若干0组成的对角矩阵,即由相合条件约束的某一类实对称矩阵均可相合到该对角矩阵。

证明:
对实对称矩阵 A A A进行分解 A = Q Λ Q T A=Q\Lambda Q^{T} A=QΛQT,所以 A A A Λ \Lambda Λ相合,不妨设 Λ \Lambda Λ λ 1 … λ m \lambda_{1}\dots\lambda_{m} λ1λm是正特征根, λ m + 1 … λ i \lambda_{m+1}\dots\lambda_{i} λm+1λi是负特征根, λ i + 1 … λ n \lambda_{i+1}\dots\lambda_{n} λi+1λn是零特征根,则 Λ = [ λ 1 ⋱ λ m ⋱ λ i ⋱ λ n ] = [ 1 λ 1 ⋱ 1 λ m ⋱ 1 − λ i ⋱ 0 ] × [ 1 ⋱ 1 ⋱ − 1 ⋱ 0 ] × [ 1 λ 1 ⋱ 1 λ m ⋱ 1 − λ i ⋱ 0 ] = C T B C \begin{aligned} \Lambda & =\left [ \begin{matrix} \lambda_{1} &&&&&& \\ &\ddots &&&&& \\ &&\lambda_{m}&&&& \\ &&&\ddots &&& \\ &&&&\lambda_{i}&& \\ &&&&&\ddots& \\ &&&&&&\lambda_{n} \end{matrix} \right ] \\ & = \left [ \begin{matrix} \frac{1}{\sqrt{\lambda_{1}}} &&&&&& \\ &\ddots &&&&& \\ && \frac{1}{\sqrt{\lambda_{m}}}&&&& \\ &&&\ddots &&& \\ &&&& \frac{1}{\sqrt{-\lambda_{i}}}&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \times \\ & \left [ \begin{matrix} 1 &&&&&& \\ &\ddots &&&&& \\ && 1&&&& \\ &&&\ddots &&& \\ &&&& -1&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \times \left [ \begin{matrix} \frac{1}{\sqrt{\lambda_{1}}} &&&&&& \\ &\ddots &&&&& \\ && \frac{1}{\sqrt{\lambda_{m}}}&&&& \\ &&&\ddots &&& \\ &&&& \frac{1}{\sqrt{-\lambda_{i}}}&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \\ & = C^{T}BC \end{aligned} Λ=λ1λmλiλn=λ1 1λm 1λi 10×1110×λ1 1λm 1λi 10=CTBC

Λ \Lambda Λ B B B相合,故 A A A B B B相合。证毕。

2.4. 惯性定理的应用

  通过 A − n I A-nI AnI限定实对称矩阵 A A A的特征根区间,例如: A − 3 I A-3I A3I有2正特征根, A − 5 I A-5I A5I只有1个正特征根,则 A A A有一个特征根在(3,5)之间。

这里用到了 A − n I A-nI AnI的特征值,相对于 A A A的特征值也减去n的推论,证明如下:

A x = λ x , ( A − 3 I ) x = λ ′ x Ax=\lambda x, (A-3I)x = \lambda' x Ax=λx,(A3I)x=λx

所以

A x = ( λ ′ + 3 ) x Ax = (\lambda'+3) x Ax=(λ+3)x

所以 λ ′ = λ − 3 \lambda'=\lambda-3 λ=λ3


3. 奇异值分解

3.1. SVD

  对矩阵 A m × n A_{m\times n} Am×n,其秩 r = r a n k ( A ) r=rank(A) r=rank(A),则其奇异值分解(Singular Value Decomposition, SVD)表示为 A = U Σ V = ( 正 交 矩 阵 ) m × m ( 对 角 矩 阵 ) m × n ( 正 交 矩 阵 ) n × n A=U\Sigma V=(正交矩阵)_{m\times m}(对角矩阵)_{m\times n}(正交矩阵)_{n\times n} A=UΣV=()m×m()m×n()n×n

其中 U U U的列向量由 A A T AA^{T} AAT的特征向量构成; V V V的列向量由 A T A A^{T}A ATA的特征向量构成; Σ \Sigma Σ的对角元素的前r个被称为奇异值,是 A A T AA^{T} AAT或者 A T A A^{T}A ATA的特征值平方根,其余元素为0。

  证明依赖于谱定理,在有了求对称方阵特征根高效算法后,才有了SVD。

证明:
证明分六步进行

  1. A T A A^{T}A ATA一定是对称方阵
    A T A x = λ x A^{T}Ax=\lambda x ATAx=λx,左乘上 x T x^{T} xT
    x T A T A x = λ x T x = ( A x ) T A x ≥ 0 x^{T}A^{T}Ax = \lambda x^{T}x = (Ax)^{T}Ax \geq 0 xTATAx=λxTx=(Ax)TAx0
    λ ≥ 0 \lambda \geq 0 λ0
    A T A A^{T}A ATA至少是半正定矩阵
  2. 由谱定理 A T A = V [ σ 1 2 ⋱ σ r 2 0 ⋱ 0 ] V T = [ v 1 , v 2 … v n ] [ σ 1 2 ⋱ σ r 2 0 ⋱ 0 ] [ v 1 T v 2 T ⋮ v n T   ] \begin{aligned} A^{T}A & = V \left [ \begin{matrix} \sigma_{1}^{2}&&&&& \\ &\ddots&&&& \\ &&\sigma_{r}^{2}&&& \\ &&&0&& \\ &&&&\ddots& \\ &&&&& 0 \end{matrix}\right ]V^{T} \\ & = [v_{1}, v_{2}\dots v_{n}] \left [ \begin{matrix} \sigma_{1}^{2}&&&&& \\ &\ddots&&&& \\ &&\sigma_{r}^{2}&&& \\ &&&0&& \\ &&&&\ddots& \\ &&&&& 0 \end{matrix}\right ] \left [ \begin{matrix} v_{1}^{T}\\ v_{2}^{T}\\ \vdots \\ v_{n}^{T}\ \end{matrix}\right ] \end{aligned} ATA=Vσ12σr200VT=[v1,v2vn]σ12σr200v1Tv2TvnT 
    其中 1 ≤ i ≤ r 1\leq i \leq r 1ir时, σ i &gt; 0 \sigma_{i}&gt;0 σi>0,当 r &lt; i ≤ n r &lt; i \leq n r<in时, σ i = 0 \sigma_{i}=0 σi=0
    所以, A T A v i = σ i 2 v i , 0 ≤ i ≤ r A^{T}Av_{i}=\sigma^{2}_{i}v_{i}, 0\leq i \leq r ATAvi=σi2vi,0ir
    由于 ∣ ∣ A v i ∣ ∣ 2 = ( A v i ) T ( A v i ) = v i T A T A v i = v i T σ i 2 v i = σ i 2 ||Av_{i}||^{2}=(Av_{i})^{T}(Av_{i})=v_{i}^{T}A^{T}Av_{i}=v_{i}^{T}\sigma^{2}_{i}v_{i}=\sigma^{2}_{i} Avi2=(Avi)T(Avi)=viTATAvi=viTσi2vi=σi2
    ∣ ∣ A v i ∣ ∣ = σ i ||Av_{i}||=\sigma_{i} Avi=σi
  3. u i = A v i σ i , 1 ≤ i ≤ r u_{i}=\frac{Av_{i}}{\sigma_{i}},1\leq i \leq r ui=σiAvi,1ir
    u i u_{i} ui A A A的列空间的单位向量。对于 i ≠ j i\neq j i̸=j A v i = u i σ i A v j = u j σ j Av_{i}=u_{i}\sigma_{i} \\ Av_{j}=u_{j}\sigma_{j} Avi=uiσiAvj=ujσj ( A v i ) T A v j = σ i σ j u i T u j (Av_{i})^{T}Av_{j}=\sigma_{i}\sigma_{j}u_{i}^{T}u_{j} (Avi)TAvj=σiσjuiTuj
    左边 = v i T A T A v j = v i T σ j 2 v j = 0 = σ i σ j u i T u j = =v^{T}_{i}A^{T}Av_{j}=v_{i}^{T}\sigma^{2}_{j}v_{j}=0=\sigma_{i}\sigma_{j}u_{i}^{T}u_{j}= =viTATAvj=viTσj2vj=0=σiσjuiTuj=右边
    由于 σ i , σ j ≠ 0 \sigma_{i},\sigma_{j}\neq 0 σi,σj̸=0,则 u i T u j = 0 u_{i}^{T}u_{j}=0 uiTuj=0
    u 1 , u 2 … u r u_{1},u_{2}\dots u_{r} u1,u2ur相互正交,是 A A A的列空间的标准正交基
  4. 扩充 u 1 , u 2 … u r u_{1},u_{2}\dots u_{r} u1,u2ur u 1 , u 2 … u r , u r + 1 … u m u_{1},u_{2}\dots u_{r},u_{r+1}\dots u_{m} u1,u2ur,ur+1um R m R^{m} Rm的标准正交基,则
    u 1 , u 2 … u r u_{1},u_{2}\dots u_{r} u1,u2ur A A A列空间 C ( A ) C(A) C(A)的标准正交基;
    u r + 1 , u r + 2 … u m u_{r+1},u_{r+2}\dots u_{m} ur+1,ur+2um A A A左零空间 N ( A T ) N(A^{T}) N(AT)的标准正交基;
  5. 逐列来看
    1 ≤ i ≤ r 1\leq i \leq r 1ir时, σ i &gt; 0 \sigma_{i}&gt;0 σi>0 A v i = u i σ i Av_{i}=u_{i}\sigma_{i} Avi=uiσi
    r &lt; i ≤ n r &lt; i \leq n r<in时, σ i = 0 \sigma_{i}=0 σi=0 A v i = 0 = u i ⋅ 0 Av_{i}=0=u_{i}·0 Avi=0=ui0
  6. A V = U Σ AV=U\Sigma AV=UΣ,所以 A = U Σ V T A=U\Sigma V^{T} A=UΣVT

3.2. SVD的本质

  逐列来看 A U = Σ V AU=\Sigma V AU=ΣV 1 ≤ i ≤ r 1\leq i \leq r 1ir时, σ i &gt; 0 \sigma_{i}&gt;0 σi>0 A v i = u i σ i Av_{i}=u_{i}\sigma_{i} Avi=uiσi r &lt; i ≤ n r &lt; i \leq n r<in时, σ i = 0 \sigma_{i}=0 σi=0 A v i = 0 = u i ⋅ 0 Av_{i}=0=u_{i}·0 Avi=0=ui0。则
   u 1 , u 2 … u r u_{1},u_{2}\dots u_{r} u1,u2ur A A A列空间 C ( A ) C(A) C(A)的标准正交基;
   u r + 1 , u r + 2 … u m u_{r+1},u_{r+2}\dots u_{m} ur+1,ur+2um A A A左零空间 N ( A T ) N(A^{T}) N(AT)的标准正交基;
   v r + 1 , v r + 2 … v n v_{r+1},v_{r+2}\dots v_{n} vr+1,vr+2vn A A A零空间 N ( A ) N(A) N(A)的标准正交基;
   v 1 , v 2 … v r v_{1},v_{2}\dots v_{r} v1,v2vr A A A行空间 C ( A T ) C(A^{T}) C(AT)的标准正交基;

  可见,SVD是 C ( A T ) C(A^{T}) C(AT) C ( A ) C(A) C(A)的极简极优美映射,当 1 ≤ i ≤ r 1\leq i \leq r 1ir
A [ v 1 … v r ] = [ u 1 … u r ] [ σ 1 ⋱ σ r ] A[v_{1}\dots v_{r}]=[u_{1}\dots u_{r}]\left [ \begin{matrix} \sigma_{1}&amp;&amp; \\ &amp;\ddots&amp; \\ &amp;&amp;\sigma_{r} \end{matrix}\right ] A[v1vr]=[u1ur]σ1σr即两个子空间标准正交基的极简极优美变换。

3.3. 求SVD

  1. A T A A^{T}A ATA σ , v \sigma, v σ,v,注意实对称矩阵属于不同特征根的特征向量正交;
  2. A v i = u i σ i Av_{i}=u_{i}\sigma_{i} Avi=uiσi求出 u i u_{i} ui
  3. 有Gram-Schmidt求 u r + 1 … u m u_{r+1}\dots u_{m} ur+1um

可见SVD的结果严重不唯一,但是奇异值是唯一的。

3.4. SVD的应用-伪逆

   求解线性方程组 A m × n x = b A_{m\times n}x=b Am×nx=b

  1. b b b C ( A ) C(A) C(A),由第二章,利用高斯消去法,解方程,就和我们解多元一次方程组一样;
  2. b b b不再 C ( A ) C(A) C(A),且 A A A列满秩,则 R n R^{n} Rn就是 C ( A T ) C(A^{T}) C(AT),利用第三章的最小二乘法,把 b b b C ( A ) C(A) C(A)投影,在把这个投影点反向映射到 C ( A T ) C(A^{T}) C(AT),得到误差最小的解
    A T ( A x ^ − b ) = 0 ⟹ x ^ = ( A T A ) − 1 A T b A^{T}(A\widehat{x}-b)=0 \Longrightarrow \widehat{x}=(A^{T}A)^{-1}A^{T}b AT(Ax b)=0x =(ATA)1ATb
  3. b b b不再 C ( A ) C(A) C(A),且A列不满秩, d i m ( R n ) = d i m ( C ( A T ) ) + d i m ( N ( A ) ) dim(R^{n})=dim(C(A^{T}))+dim(N(A)) dim(Rn)=dim(C(AT))+dim(N(A)) R n R^{n} Rn相对于 C ( A T ) C(A^{T}) C(AT) N ( A ) N(A) N(A)是更高维,把 b b b C ( A ) C(A) C(A)投影,在把这个投影点反映射到 C ( A T ) C(A^{T}) C(AT)得到反向映射点,这个反向映射点加上 N ( A ) N(A) N(A)中任意一个点都是误差最小解,此时最小二乘法得到的误差最小解不唯一,我们可以利用伪逆求得最短最简单的误差最小解,也就是反向映射点加上 N ( A ) N(A) N(A)中的全零点。

   伪逆利用SVD定义,如果 A = U Σ V T A=U\Sigma V^{T} A=UΣVT,则A的伪逆定义为 A + = V Σ + U T A^{+}=V\Sigma^{+} U^{T} A+=VΣ+UT
其中 Σ + \Sigma^{+} Σ+表示对 Σ \Sigma Σ进行转置后,奇异值取倒数。

  则 A x = b Ax=b Ax=b的最短最简单误差最小解就是 x + = A + b x^{+}=A^{+}b x+=A+b A + b A^{+}b A+b的意义是把 b b b投影到 C ( A ) C(A) C(A)中,在映射到 C ( A T ) C(A^{T}) C(AT)

  下面是伪逆求解最短最简单的误差最小解的证明。

  1. 先证明 A A A是对角阵的情况,以 A 3 × 4 , r ( A ) = 2 A_{3\times 4}, r(A)=2 A3×4,r(A)=2为例,求最短最简单的误差最小解 x ^ \widehat{x} x
    b ∈ C ( A ) b\in C(A) bC(A)
    [ σ 1 0 0 0 0 σ 2 0 0 0 0 0 0 ] [ x ^ 1 x ^ 2 x ^ 3 x ^ 4 ] = [ b 1 b 2 0 ] \left [ \begin{matrix} \sigma_{1} &amp; 0 &amp; 0 &amp; 0 \\ 0 &amp; \sigma_{2} &amp; 0 &amp; 0 \\ 0 &amp; 0 &amp; 0 &amp; 0 \end{matrix}\right ] \left [ \begin{matrix} \widehat{x}_{1} \\ \widehat{x}_{2} \\ \widehat{x}_{3} \\ \widehat{x}_{4} \end{matrix}\right ] =\left [ \begin{matrix} b_{1} \\ b_{2} \\ 0 \end{matrix}\right ] σ1000σ20000000x 1x 2x 3x 4=b1b20 x ^ 1 = b 1 σ 1 \widehat{x}_{1}=\frac{b_{1}}{\sigma_{1}} x 1=σ1b1 x ^ 2 = b 2 σ 2 \widehat{x}_{2}=\frac{b_{2}}{\sigma_{2}} x 2=σ2b2
    定义伪逆
    A + = [ 1 σ 1 0 0 0 1 σ 2 0 0 0 0 0 0 0 ] A^{+}=\left [ \begin{matrix} \frac{1}{\sigma_{1}} &amp; 0 &amp; 0 \\ 0 &amp; \frac{1}{\sigma_{2}} &amp; 0 \\ 0 &amp; 0 &amp; 0 \\ 0 &amp; 0 &amp; 0 \end{matrix}\right ] A+=σ110000σ21000000
    x ^ = A + [ b 1 b 2 0 ] \widehat{x}=A^{+}\left [ \begin{matrix} b_{1} \\ b_{2} \\ 0 \end{matrix}\right ] x =A+b1b20得到最短最简单的误差最小解。
    b ∉ C ( A ) b\notin C(A) b/C(A)时, b = [ b 1 b 2 b 3 ] b=\left [ \begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}\right] b=b1b2b3,仍按照上面的伪逆,仍然可以求得最短解,同时也是误差最小的解 x ^ = A + [ b 1 b 2 b 3 ] = [ b 1 σ 1 b 2 σ 2 0 0 ] \widehat{x}=A^{+}\left [ \begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}\right ]=\left [ \begin{matrix} \frac{b_{1}}{\sigma_{1}} \\ \frac{b_{2}}{\sigma_{2}} \\ 0 \\ 0 \end{matrix}\right ] x =A+b1b2b3=σ1b1σ2b200
  2. 如果A不是对角阵,则我们可以化成对角阵的形式,回到我们的根本目的,利用最小二乘法的想法求误差最小解,最小化 ∣ ∣ A x − b ∣ ∣ ||Ax-b|| Axb,则 ∣ ∣ A x − b ∣ ∣ = ∣ ∣ U Σ V T x − b ∣ ∣ = ∣ ∣ U ( Σ V T x − U T b ) ∣ ∣ = ∣ ∣ Σ V T x − U T b ∣ ∣ \begin{aligned} ||Ax-b|| &amp; =||U\Sigma V^{T}x-b|| \\ &amp; = ||U(\Sigma V^{T}x-U^{T}b)|| \\ &amp; = ||\Sigma V^{T}x-U^{T}b|| \end{aligned} Axb=UΣVTxb=U(ΣVTxUTb)=ΣVTxUTb最后一个等号转换用到了,正交变换不改变长度的性质。令 y = V T x y=V^{T}x y=VTx,则 x = V y x=Vy x=Vy,进一步化简 ∣ ∣ A x − b ∣ ∣ = ∣ ∣ Σ V T x − U T b ∣ ∣ = ∣ ∣ Σ y − U T b ∣ ∣ \begin{aligned} ||Ax-b|| &amp; = ||\Sigma V^{T}x-U^{T}b|| \\ &amp; = ||\Sigma y-U^{T}b|| \end{aligned} Axb=ΣVTxUTb=ΣyUTb此时 Σ \Sigma Σ是对角矩阵,回到了情况1,我们得到 y y y的最短最简单的误差最小解是 y + = Σ + U T b y^{+}=\Sigma^{+}U^{T}b y+=Σ+UTb由于 x = V y x=Vy x=Vy同样是正交变换,不改变长度,进而得到 x x x的最短最简单的误差最小解是 x + = V y + = V Σ + U T b x^{+}=Vy^{+}=V\Sigma^{+}U^{T}b x+=Vy+=VΣ+UTb证毕。

  值得一提的是, A A + AA^{+} AA+ A + A A^{+}A A+A均可看成投影矩阵, A A + b AA^{+}b AA+b b b b C ( A ) C(A) C(A)投影, A + A a A^{+}Aa A+Aa a a a C ( A T ) C(A^{T}) C(AT)投影。

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值