MathBase 工程数学基础(第十五讲-第十九讲)
MathBase 工程数学基础(第十五讲-第十九讲)
- Author:Dargon
- Note date:2020/10/19-2020/10/21
- 学习视频来源:
国防科技大学 MOOC
第十五讲,矩阵分解
回顾
方阵
的两个重要分解
- 相似对角化 A = P d i a g [ λ 1 , λ 2 , ⋯ , λ n ] P − 1 A =Pdiag[\lambda_1, \lambda_2, \cdots, \lambda_n]P^{-1} A=Pdiag[λ1,λ2,⋯,λn]P−1
- jordan标准型 A = P d i a g [ J 1 ( λ 1 ) , J 2 ( λ 2 ) , ⋯ , J n ( λ n ) A =Pdiag[J_1(\lambda_1), J_2(\lambda_2), \cdots, J_n(\lambda_n) A=Pdiag[J1(λ1),J2(λ2),⋯,Jn(λn)
上下三角阵的性质
- 上下三角阵的和、差、乘积、逆让是上下三角阵
- 单位上下三角阵的乘积、逆 仍是单位上下三角阵
- Ax =b是,若A为上下三角矩阵时候,会更加容易求解
-
三角分解
-
定义: 若方阵A 可分解为 A =LR
注:L(left)为单位下三角阵,R(right)为上三角阵
称为三角分解 或者 Doolittle分解 -
方便求解:
若方阵A有三角分解 A =LR
令 RX =y
则Ax =b可分解为两个非齐次的线性方程组:- Ly =b (前推方程组)
- Rx =y (后退方程组)
L 是一个单位下三角矩阵
[ 1 L 21 1 ⋮ ⋱ ⋱ L n 1 ⋯ L n ( − 1 ) 1 ] [ y 1 y 2 ⋮ y n ] = [ b 1 b 2 ⋮ b n ] (15.1) \left [ \begin{matrix} 1 \\ L_{21} & 1 \\ \vdots & \ddots & \ddots \\ L_{n1} & \cdots & L_{n(-1)} & 1 \end{matrix} \right ] \left [ \begin{matrix} y_1 \\ y_2 \\ \vdots\\ y_n \end{matrix} \right ] = \left [ \begin{matrix} b_1 \\ b_2 \\ \vdots\\ b_n \end{matrix} \right ] \tag{15.1} ⎣⎢⎢⎢⎡1L21⋮Ln11⋱⋯⋱Ln(−1)1⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡y1y2⋮yn⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡b1b2⋮bn⎦⎥⎥⎥⎤(15.1)
可以很快速的求出 y 1 = b 1 , y 2 = b 2 − L 2 , y 1 → ⋯ y n y_1 =b_1, y_2 =b_2 -L_2 ,y_1 \to \cdots y_n y1=b1,y2=b2−L2,y1→⋯yn
-
对于后退方程组的求解:
[ R 11 R 12 ⋯ R 1 n R 22 ⋯ R 2 n ⋱ ⋮ R n n ] [ x 1 x 2 ⋮ x n ] = [ y 1 y 2 ⋮ y n ] (15.2) \left [ \begin{matrix} R_{11} & R_{12} & \cdots & R_{1n} \\ & R_{22} & \cdots & R_{2n} \\ & & \ddots & \vdots \\ & & &R_{nn} \end{matrix} \right ] \left [ \begin{matrix} x_1 \\ x_2 \\ \vdots\\ x_n \end{matrix} \right ] = \left [ \begin{matrix} y_1 \\ y_2 \\ \vdots\\ y_n \end{matrix} \right ] \tag{15.2} ⎣⎢⎢⎢⎡R11R12R22⋯⋯⋱R1nR2n⋮Rnn⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡y1y2⋮yn⎦⎥⎥⎥⎤(15.2)
将其做向前分解:
X n → X n − 1 → ⋯ → X 1 X_n \to X_{n-1} \to \cdots \to X_1 Xn→Xn−1→⋯→X1
方便求解,更加直观,经程序循环一下子就计算出来了,简化Ax =b的计算
-
LR分解
- 定义 因为矩阵
[
R
∣
L
−
1
]
[R | L^{-1}]
[R∣L−1] 是由矩阵[A | I]通过初等变换得到的,所以存在一个可逆矩阵P,使得
P [ A ⋮ I ] = [ R ⋮ L − 1 ] P[A \vdots I] =[R \vdots L^{-1}] P[A⋮I]=[R⋮L−1]
P A = R , P = L − 1 PA =R, P =L^{-1} PA=R,P=L−1
A = P − 1 R = L R A =P^{-1}R =LR A=P−1R=LR
so A有三角分解 - 若A是n 阶可逆方阵,则存在置换矩阵P,使得PA 有唯一的三角分解即有
P A = L R PA =LR PA=LR - LR 分解过程(高斯消元法)
- 类似于矩阵求逆过程一样将[A | I]化成 [ R ∣ L − 1 ] [R | L^{-1}] [R∣L−1]形式,前面就是R 后面是L的逆
- 求出L 则LR就是分解矩阵
- 若不能分解,先利用置换矩阵P(就是单位阵换来换去的)作用一下,再利用LR进行分解。
- 例题
LDR分解
在前面的A =LR 中L 是单位下三角矩阵,但是R只是上三角矩阵,可以更简化将R化简成对角阵 乘以 单位上三角矩阵
R
=
[
d
1
d
2
⋱
d
n
]
[
1
R
12
⋯
R
1
n
1
⋯
R
2
n
⋱
⋮
1
]
R = \left [ \begin{matrix} d_{1} & & & \\ &d_{2} & & \\ & & \ddots & \\ & & &d_{n} \end{matrix} \right ] \left [ \begin{matrix} 1 & R_{12} & \cdots & R_{1n} \\ & 1 & \cdots & R_{2n} \\ & & \ddots & \vdots \\ & & &1 \end{matrix} \right ]
R=⎣⎢⎢⎡d1d2⋱dn⎦⎥⎥⎤⎣⎢⎢⎢⎡1R121⋯⋯⋱R1nR2n⋮1⎦⎥⎥⎥⎤
则A = L D R
-
平方根分解 A = G G T A =GG^T A=GGT
相比于上面的分解更加束缚
对于方阵A 是正定的,A =LDR
则有对角阵 D = d i a g [ d 1 , d 2 , ⋯ , d n ] D = diag[ d_1, d_2, \cdots, d_n ] D=diag[d1,d2,⋯,dn]其中对角元 d >0de若有 A T = A A^T =A AT=A 则有 L T = R , R T = L L^T =R, R^T =L LT=R,RT=L
令 D = [ d 1 d 2 ⋱ d n ] \sqrt{D} = \left [ \begin{matrix} \sqrt{d_{1}} & & & \\ &\sqrt{d_{2}} & & \\ & & \ddots & \\ & & &\sqrt{d_{n}} \end{matrix} \right ] D=⎣⎢⎢⎡d1d2⋱dn⎦⎥⎥⎤
则有 A = L D R = L D D L T = ( L D ) ( L D ) T = G G T A =LDR =L \sqrt{D} \sqrt{D}L^T =(L \sqrt{D}) (L \sqrt{D})^T =G G^T A=LDR=LDDLT=(LD)(LD)T=GGT
这就是平方根分解
过程:- 将A 化成上三角阵 R
- 分解 R =D R1
- L的转置 = R
- G = L D G =L\sqrt{D} G=LD
- 写成 A = G G T A = GG^T A=GGT
-
总结
矩阵三角分解 LR 出发
顺序主子式不唯一 PA = LR
A =LDR
A 为正定矩阵,进行平方根分解
第十六讲,矩阵的正交三角分解
正交三角分解
定义:若n 阶复方阵A 可分解为 A =QR形式
其中 Q 为酉矩阵
Q
H
=
Q
−
1
Q^H =Q^{-1}
QH=Q−1
酉矩阵 矩阵的共轭转置 等于 矩阵的逆 就相当于 正交矩阵 矩阵的转置 等于 该矩阵的逆这一层关系
R是一个上三角矩阵
分解的应用
- 解方程组 Ax =b (利用前推 和后退 一次求解 和前面所用方法一样)
- 求复杂矩阵的特征值、特征向量(QR算法/没接触到!)
正交三角分解Schmidt 方法
若n 方阵是可逆的,则A 有唯一的QR分解
具体步骤:
1) 将矩阵A 进行每一列进行单位正交化(运用之前的schmidit公式)
2) 将前面就相当于一组标准正交基 为Q 矩阵,后面的R 相当于过渡矩阵
3) 说白了 这个方法就是将 schmidt正交化方法用矩阵表示一下
A
=
[
ξ
1
ξ
2
ξ
3
]
[
∥
∣
B
1
∣
∣
<
α
2
,
ξ
1
>
<
α
3
,
ξ
1
>
∣
∣
B
2
∣
∣
<
α
3
,
ξ
2
>
∣
∣
B
3
∣
∣
]
A=[\xi_1 \quad \xi_2 \quad \xi_3] \left [ \begin{matrix} \||\Beta_1|| & <\alpha_2,\xi_1> & <\alpha_3,\xi_1> \\ &||\Beta_2|| & <\alpha_3,\xi_2> \\ & & ||\Beta_3|| \end{matrix} \right ]
A=[ξ1ξ2ξ3]⎣⎡∥∣B1∣∣<α2,ξ1>∣∣B2∣∣<α3,ξ1><α3,ξ2>∣∣B3∣∣⎦⎤
Householder 方法分解
-
对于schmidt方法有
可逆
的限制,就有了Householder 方法分解不可逆矩阵
实质(作用):可以将一个向量
正交变换到指定方向。
象征性的给出定理说明:
设 e ⊂ C n e \subset C^n e⊂Cn 是一给定的单位向量,则对任意的向量 x ⊂ C n x \subset C^n x⊂Cn,存在n 阶Householder矩阵 H使得
H x = a e H x =a e Hx=ae
H 就是Householder 矩阵 H = I − 2 ω ω H H =I -2\omega \omega^H H=I−2ωωH
其中a 是复数 且满足条件1) |a| =||a|| 二范数 2) a X H e a X^H e aXHe是实数
公式证明如下:
-
向量QR 分解步骤
- 根据向量x 确定a = x 的2-范数
- 计算 ω = X − a e ∣ ∣ X − a e ∣ ∣ 2 \omega =\frac {X -ae}{||X -ae||_2} ω=∣∣X−ae∣∣2X−ae 相当于将X-ae 单位化
- 公式计算 H = I − 2 ω ω H H =I -2\omega \omega^H H=I−2ωωH
- 将H 矩阵作用到X 向量 ,就转换到 e 向量的方向上了
-
矩阵的QR 分解
- 利用 Hx =ae ,一层一层,计算一系列的Householder矩阵,且计算的H矩阵均是酉矩阵
- 最终 Q矩阵就是 = 一系列 H1 H2 …… 的乘积 (Q 仍旧是酉矩阵)
- R 就是H2 H1 A
- 计算验证 A =QR
注 自己忘的时候,可以来翻一翻这道例题
第十七讲,矩阵的满秩分解
满秩分解意义在于
- 不是方阵的矩阵进行分解(前面所学的分解都是在方阵的条件下)
Hermite标准型
- 理解的定义:将矩阵化为阶梯型矩阵,每个阶梯所对应值为1,且列上的元素除自己外 全部为0
- 计算: 可利用高斯消元法进行计算
相当于对增广矩阵进行初等变换,之后左边就是 阶梯矩阵,后面就是P,我们的作用矩阵。
满秩分解过程
- 先求A 的hermite标准型,找出最大的线性无关组(相当于单位子矩阵)所对应的列(找到是原始A 里面列的)就是对应的F 矩阵
- 取H 矩阵的前r 行 (独立序列)构成行满秩矩阵 G
- 分解完成 A =FG
理解:F 里面的列是矩阵的最大线性无关组,其实相当于A 的一组基向量,每一列向量均可以用F 来表示,对应基向量下的坐标,G也就是其它列向量用F 来进行线性组合的系数
关于满秩分解的证明:
/插入照片
行满秩、列满秩
-
定义
对于 A ⊂ C ( m × n ) A \subset C^(m \times n) A⊂C(m×n)
若rank(A)= m 则称A 为行满秩 且m <= n;
若rank(A)= n 则称A 为列满秩 且n <= m; -
性质行满秩(列满秩)
- F H F ( G G H ) F^H F(GG^H) FHF(GGH)的特征值>0;
- F H F ( G G H ) F^H F(GG^H) FHF(GGH)是正定Hermite矩阵;
- F H F ( G G H ) F^H F(GG^H) FHF(GGH)是r 阶满秩矩阵;
左逆和右逆
由于只有方阵才可能有逆,所以对于不是方阵的来说,只能是形式上的逆
-
定义
设 A ⊂ C m × n A \subset C^{m \times n} A⊂Cm×n, B ⊂ C n × m B \subset C^{n \times m} B⊂Cn×m
若AB = I m I_m Im
由于AB 不是方阵,
则B 为A 的右逆 记作: A R − 1 = B A_R^{-1} =B AR−1=B 条件:A要行满秩
则A 为B 的左逆 记作: B L − 1 = A B_L^{-1} =A BL−1=A 条件:A要列满秩 -
证明
设m X n 的矩阵A 是行满秩的, A A H AA^H AAH可逆(根据行满秩的性质)
( A A H ) ( A A H ) − 1 = I m (AA^H)(AA^H)^{-1} =I_m (AAH)(AAH)−1=Im
若是AB = I m I_m Im 则
A的右逆: A H ( A A H ) − 1 A^H(AA^H)^{-1} AH(AAH)−1
同理则可以证明求得
A的左逆: ( A H A ) − 1 A H (A^HA)^{-1}A^H (AHA)−1AH
第十八讲,奇异值分解
知识回顾以及问题
- 方阵的重要分解
A = P Λ P − 1 A =P \Lambda P^{-1} A=PΛP−1
A = P d i a g J ( Λ 1 , Λ 2 , ⋯ , J ( Λ n ) ) A =P diag{J(\Lambda_1, \Lambda_2, \cdots, J(\Lambda_n))} A=PdiagJ(Λ1,Λ2,⋯,J(Λn))
P 就是由特征向量组成的矩阵,若有足够的特征向量则可以相似对角化成对角阵,否成为Jordan阵 - 存在的限制
- 矩阵A 必须是方阵,非方阵没有Jordan标准型
- Jordan阵不一定是对角阵
- 相似变换矩阵P 不是酉(正交)矩阵
奇异值
- 引理Lemma :
- R a n k ( A A H ) = R a n k ( A H A ) = R a n k A Rank(AA^H) =Rank(A^H A) =Rank A Rank(AAH)=Rank(AHA)=RankA
- A A H , A H A AA^H, A^HA AAH,AHA 有相同的特征值
- 若记非负定的Hermite矩阵
A
H
A
A^HA
AHA的n 个特征值为
λ
1
,
λ
2
,
⋯
,
λ
n
\lambda_1, \lambda_2, \cdots, \lambda_n
λ1,λ2,⋯,λn
则称 σ 1 = λ 1 , σ 2 = λ 2 , ⋯ , σ n = λ n \sigma_1 =\sqrt{\lambda_1}, \sigma_2 =\sqrt{\lambda_2}, \cdots, \sigma_n =\sqrt{\lambda_n} σ1=λ1,σ2=λ2,⋯,σn=λn 为 A的奇异值
同时,为了区分0 和正值对于如下:
λ 1 ≥ λ 2 ≥ ⋯ λ r > λ r + 1 > ⋯ > λ n \lambda_1 \geq \lambda_2 \geq \cdots \lambda_r > \lambda_{r+1}> \cdots >\lambda_{n} λ1≥λ2≥⋯λr>λr+1>⋯>λn
则称 σ 1 = λ 1 , σ 2 = λ 2 , ⋯ , σ r = λ r \sigma_1 =\sqrt{\lambda_1}, \sigma_2 =\sqrt{\lambda_2}, \cdots, \sigma_r =\sqrt{\lambda_r} σ1=λ1,σ2=λ2,⋯,σr=λr 为 A的正奇异值 - 步骤
- 求出A的共轭装置和A矩阵的乘积 A H A A^HA AHA的 特征值 进行开方,有多少像就是多少个,重根也算
- 技巧利用 A H A 和 A A H A^HA 和AA^H AHA和AAH的特征值相同,最后在补上相应的项为 0 即可完成
奇异值分解(前面都是铺垫)
-
定义
- 若存在一个m行n列的矩阵A,且A的秩Rank(A)> 0的,则必存在m 阶的酉矩阵U 和n阶酉矩阵V 使得
U H A V = [ Σ r 0 0 0 ] U^H AV = \left [ \begin{matrix} \Sigma_r&0\\ 0&0 \end{matrix} \right ] UHAV=[Σr000]
其中 Σ r = d i a g [ σ 1 , σ 2 , ⋯ , σ r ] \Sigma_r =diag [\sigma_1, \sigma_2, \cdots, \sigma_r] Σr=diag[σ1,σ2,⋯,σr]全是正奇异值,这就是A的奇异值分解。
- 若存在一个m行n列的矩阵A,且A的秩Rank(A)> 0的,则必存在m 阶的酉矩阵U 和n阶酉矩阵V 使得
-
奇异值分解的简单推理
- 推理的步骤图片
- 推理的步骤图片
-
奇异分解步骤
- 先求 A H A A^HA AHA的特征值以及单位正交特征向量 λ 1 ≥ λ 2 ≥ ⋯ λ r > λ r + 1 = ⋯ = λ n \lambda_1 \geq \lambda_2 \geq \cdots \lambda_r > \lambda_{r+1} = \cdots =\lambda_n λ1≥λ2≥⋯λr>λr+1=⋯=λn,对于大于0 的特征值所对应的特征向量就是 V 1 = [ V 1 , V 2 , ⋯ , v r ] V_1 =[V_1, V_2, \cdots, v_r] V1=[V1,V2,⋯,vr],则等于0的特征值所对于应的特征向量 V 2 = [ V r + 1 , ⋯ , V n ] V_2 =[V_{r+1}, \cdots, V_n] V2=[Vr+1,⋯,Vn]
- 令 V = [ V 1 , V 2 ] V =[V1, V2] V=[V1,V2] 由正奇异值构成对角阵 Σ = [ λ 1 ⋱ λ r ] \Sigma =\left [ \begin{matrix} \sqrt{\lambda_1} & & \\ &\ddots & \\ & & \sqrt{\lambda_r} \end{matrix} \right ] Σ=⎣⎡λ1⋱λr⎦⎤ 且 U 1 = A V 1 Σ − 1 U_1 =AV_1 \Sigma^{-1} U1=AV1Σ−1,其中U1 中列向量 [ U 1 , U 2 , ⋯ , U r ] [U_1, U_2, \cdots, U_r] [U1,U2,⋯,Ur]是 C m C^m Cm的单位向量,里面两两正交。
- 将U1中的列向量进行基扩张,到 C m C^m Cm的空间内,后面就多加了(n-r)列并且都能被前面r个所线性表示,组合成大U 矩阵
-
奇异值分解例题过程
基本是两种过程,可以计算 A H A A^HA AHA或者 A A H A A^H AAH求特征值的时候,后面的方法需要进行,补0的特征值。//插入图片
奇异值分解的应用
- 最小二乘问题
- 设 A ⊂ C m x n , b ⊂ C m , F o r X ⊂ C n A \subset C^{mxn}, b \subset C^m, For X \subset C^n A⊂Cmxn,b⊂Cm,ForX⊂Cn使得 ∣ ∣ A x ∗ − b ∣ ∣ 2 = m i n x ⊂ C n ∣ ∣ A x − b ∣ ∣ 2 ||Ax^* -b||_2 = min_{x \subset C^n} ||Ax -b||_2 ∣∣Ax∗−b∣∣2=minx⊂Cn∣∣Ax−b∣∣2
- 下面是简单利用奇异值分解找一下最小值
应用解析的方法证明求出最小二乘值。 - 理解,在空间里面就是要找一个使得b 到在A的列空间里面的距离最小,也就是当b 做垂直投影下来的时候,这时候从空间里面来看就是,Ax 是在A 的列空间C(A)里面,处置距离正好是在A 的行空间R(A)里面。
奇异值分解的应用
- 最小二乘问题
- 设 A ⊂ C m x n , b ⊂ C m , F o r X ⊂ C n A \subset C^{mxn}, b \subset C^m, For X \subset C^n A⊂Cmxn,b⊂Cm,ForX⊂Cn使得 ∣ ∣ A x ∗ − b ∣ ∣ 2 = m i n x ⊂ C n ∣ ∣ A x − b ∣ ∣ 2 ||Ax^* -b||_2 = min_{x \subset C^n} ||Ax -b||_2 ∣∣Ax∗−b∣∣2=minx⊂Cn∣∣Ax−b∣∣2
- 下面是简单利用奇异值分解找一下最小值
应用解析的方法证明求出最小二乘值。
- 理解,在空间里面就是要找一个使得b 到在A的列空间里面的距离最小,也就是当b 做垂直投影下来的时候,这时候从空间里面来看就是,Ax 是在A 的列空间C(A)里面,处置距离正好是在A 的行空间R(A)里面。
- 数据压缩
- 存储矩阵 A ⊂ C m x n A \subset C^{mxn} A⊂Cmxn,需要在矩阵A 里面存储mxn 个数据,我们希望利用奇异值分解,用尽可能的数据来逼近A,(当然,需要牺牲一点像素)
- 我们可以用矩阵的秩Rank(A)来度量数据矩阵A 冗余,比如说 Rank(A) =1的话,则我们只需要(m + n)个数据就可以来逼近这张图片,因为后面的代表的东西,都可以有这个向量进行线性表示
- 一个计算过程
- 奇异值分解暂时到此结束!!!
矩阵的广义逆
来源
- 一个仿真不一定可逆,长方矩阵更谈不上可逆,这样看,逆矩阵的定义是非常 的苛刻的,所以引入 矩阵的广义逆来推广矩阵逆的概念
- 回顾左逆和右逆的概念
- A的右逆:
A
H
(
A
A
H
)
−
1
A^H(AA^H)^{-1}
AH(AAH)−1
同理则可以证明求得
A的左逆 ( A H A ) − 1 A H (A^HA)^{-1}A^H (AHA)−1AH
- A的右逆:
A
H
(
A
A
H
)
−
1
A^H(AA^H)^{-1}
AH(AAH)−1
定义A 的加号逆
- A − 1 = G R − 1 × F L − 1 A^{-1} =G_R^{-1} \times F_L^{-1} A−1=GR−1×FL−1
- 定义一个加号逆需要满足以下条件
- A G A = A AGA =A AGA=A
- G A G = G GAG =G GAG=G
- ( A G ) H = A G (AG)^H =AG (AG)H=AG
- ( G A ) H = G A (GA)^H =GA (GA)H=GA 则可以称G 为A 一个广义逆(M-P广义逆/加号逆)记作 A + A^+ A+
A + A^+ A+的求解
-
满秩分解法
- 先根据公式求满秩分解 A =FG
- 计算F(列满秩) 的左逆,G(行满秩) 的右逆
- 带入公式 A − 1 = G R − 1 × F L − 1 A^{-1} =G_R^{-1} \times F_L^{-1} A−1=GR−1×FL−1计算
- 例题看一下流程 //插入图片
-
奇异值分解法
- 设A 的奇异值分解为 A = U Σ V H A =U \Sigma V^H A=UΣVH ,则 A + = V Σ U H A^+ =V \Sigma U^H A+=VΣUH
应用
-
求解方程组,若是相容(直面意思是方程组有解)且解可用广义逆来表示为 X = A + b + ( I − A + A ) t X =A^+ b + (I -A^+ A)t X=A+b+(I−A+A)t 其中 前面一项是非齐次的特解,后面一项是齐次的通解。
-
一道例题的解析过程 //插入图片
-
最小二乘解的求解过程和解方程本质是相同的
后记
- 至此,花费了大约一周的时间,系统的归纳了自己所学习到的知识点,并写入自己的博客里面,算是总结性的笔记,把基础做好,才能做得更好一点,看得更远一点,才能在看待一些问题上少一些局限性。工程数学的学习笔记记录到此结束!!!