MIT线性代数笔记Lecture3-Lecture4

矩阵乘法与逆的解析

最新推荐文章于 2024-08-29 20:35:24 发布

原创最新推荐文章于 2024-08-29 20:35:24 发布 · 479 阅读

1 ·

CC 4.0 BY-SA版权

线性代数专栏收录该内容

5 篇文章

订阅专栏

本文深入探讨了矩阵乘法的五种方法，包括单个元素计算、整行整列考虑、列乘以行、矩阵分块以及矩阵逆的概念。讲解了矩阵逆的求解方法，包括矩阵的可逆性和求逆过程，并介绍了LU分解，对比了LU分解与消元法的优势，以及LU分解的复杂度分析。

Lecture3 矩阵乘法与逆

1. 矩阵乘法及其5种方式

1. 对于结果矩阵中的特定元素单个计算（entry）
假定矩阵乘法为:
$A B = C$
当 $Am×n,Bn×sA_{m\times n},B_{n\times s}$ 时矩阵可乘（内标相同），且得到结果 $Cm×sC_{m\times s}$ 。
C中 $i$ 行 $j$ 列的元素为：
$ofB)=∑k=1naikbkjC_{i,j} = (Row \ i \ of A)\cdot(Column \ j \ of B)=\sum_{k=1}^n a_{ik}b_{kj}$
2,3. 整行和整列去考虑
可以将 $B$ 的列当成向量单独考虑， $A$ 乘以 $B$ 的每个列向量构成新矩阵 $C$ 的每个列。即 $C$ 的每一列是 $A$ 中列向量的线性组合。
同理 $A$ 的每一行乘以 $B$ 构成 $C$ 的每一行。即 $C$ 中的每行为 $B$ 中行向量的线性组合。
4. 用A的列乘以B的行
$\ of \{(Columns \ of \ A)\cdot(Rows \ of \ B)\}$
A中的列向量与B中的行向量相乘会得到一个 $m×sm\times s$ 的矩阵。将其组合相加可以得到 $A B$ 。
5.利用矩阵分块
只要将矩阵的大小按照符合乘法规则的要求来划分，可以得到：
$\begin{bmatrix} A_1&|&A_2\\ -&-&-\\ A_3&|&A_4\\ \end{bmatrix}\cdot \begin{bmatrix} B_1&|&B_2\\ -&-&-\\ B_3&|&B_4\\ \end{bmatrix}= \begin{bmatrix} A_1B_1+A_2B_3&|&A_1B_2+A_2B_4\\ -----&--&-----\\ A_3B_1+A_4B_3&|&A_3B_2+A_4B_4\\ \end{bmatrix}$

2. 矩阵的逆（inverse）

只有方阵才存在逆。
$AA^{-1} = A^{-1}A = I$
若一个矩阵存在逆，称其可逆（invertible）或非奇异（non-singular）矩阵的左逆和右逆相等，均表示为 $A^{-1}$ 。

矩阵的可逆性
$\begin{bmatrix} 1&3\\ 2&6\\ \end{bmatrix}$ 不可逆，因为找不到 $A$ 的列的线性组合得到列向量 $[10]\begin{bmatrix} 1\\ 0\\ \end{bmatrix}$ ( $I$ 的第一列)。
判断矩阵是否可逆的一种方法：
如果可以找到非零向量 $x$ ，使得 $A x = 0$ 成立，则矩阵不可逆。
因为如果此时 $A$ 可逆将等式两边乘以 $A^{-1}$ ，得到 $x = 0$ 。
所以，若矩阵列向量的非零线性组合可以得到零向量，矩阵不可逆。
矩阵逆的求法
假设 $A$ 的逆存在，如何求 $A^{-1}$ ?
举个例子：
$\begin{bmatrix} 1&3\\ 2&7\\ \end{bmatrix} \ \ \ \ 求A^{-1}$
假设 $A−1=[acbd]A^{-1} = \begin{bmatrix} a&c\\ b&d\\ \end{bmatrix}$ ，可以设立方程：
$\begin{bmatrix} 1&3\\ 2&7\\ \end{bmatrix} \begin{bmatrix} a&c\\ b&d\\ \end{bmatrix}= \begin{bmatrix} 1&0\\ 0&1\\ \end{bmatrix}$
Gaussian-Jordan:Solve 2 equals at once
$\begin{cases} \begin{bmatrix} 1&3\\ 2&7\\ \end{bmatrix} \begin{bmatrix} a\\ b\\ \end{bmatrix}= \begin{bmatrix} 1\\ 0\\ \end{bmatrix}\\\\ \begin{bmatrix} 1&3\\ 2&7\\ \end{bmatrix} \begin{bmatrix} c\\ d\\ \end{bmatrix}= \begin{bmatrix} 0\\ 1\\ \end{bmatrix}\\ \end{cases}\rightarrow \begin{bmatrix} 1&3&|&1&0\\ 2&7&|&0&1\\ \end{bmatrix}$
首先写出上述方程增广矩阵形式，再使用Lecture2中提到的elimination进行消元,最终左侧将得到单位阵 $I$ 。
$\begin{bmatrix} 1&3&|&1&0\\ 2&7&|&0&1\\ \end{bmatrix}\rightarrow \begin{bmatrix} 1&3&|&1&0\\ 0&1&|&-2&1\\ \end{bmatrix}\rightarrow \begin{bmatrix} 1&0&|&7&-3\\ 0&1&|&-2&1\\ \end{bmatrix}$
对于以上方式的理解为相当于将单位阵的每个列单独看做一个向量 $b$ ，该向量可视作 $A$ 中的列的线性组合(矩阵乘法的第二种方式)，之后对于每一列解它线性组合对应的系数就相当于解 $A x = b$ 的一个过程，可以使用消元法。而对每个列的消元的过程可以合并起来（因为都是初等行变换）。
另一种理解是： $A$ 经过的初等行变换可以看做乘以一系列的 $E$ 矩阵，详见上节消元法的介绍，当 $A$ 经过初等行变换变为 $I$ 的时候，这一系列的 $E$ 相乘就相当于乘以 $A^{-1}$ ，此时将 $I$ 作同样的变换，相当于乘以一系列的 $E$ 最终的结果是变为 $A^{-1}$ 。

Lecture4 矩阵的LU分解

这节课的总的目标是以一种更高阶的方式去审视高斯消元。

1. 上节课没讲完的关于逆的小问题

AB的逆
假设 $A, B$ 均可逆， $AB)^{-1}=B^{-1}A^{-1}$
因为 $AB)(B^{-1}A^{-1})=I$ （乘法满足结合律）
A转置的逆
$A^T)^{-1}=(A^{-1})^T$
因为 $(AA−1)T=I⇒(A−1)TAT=I(AA^{-1})^T=I \Rightarrow (A^{-1})^TA^T=I$

2. 矩阵LU分解过程

以2x2的矩阵为例
将 $A$ 分解为 $A = L U$ ， $U$ 为上三角矩阵（Upper triangular）， $L$ 为下三角矩阵（Lower triangular）。
$\begin{bmatrix} 2&1\\ 8&7\\ \end{bmatrix}\\$
Lecture2中可知可以通过矩阵消元的方法得到 $E, U$ 矩阵，且将 $A$ 经过初等行变换转化成 $U$ 的过程可看作左乘 $E$ 矩阵，此处不考虑行交换的情况。
$\begin{bmatrix} 1&0\\ -4&1\\ \end{bmatrix} \begin{bmatrix} 2&1\\ 8&7\\ \end{bmatrix}= \begin{bmatrix} 2&1\\ 0&3\\ \end{bmatrix}\rightarrow E_{2,1}A = U$
所以将 $A$ 分解为 $A = L U$ 的形式，只要将 $U$ 左乘 $E_{2,1}$ 的逆阵即可。
$A=[2187]=[1041][2103]A=\begin{bmatrix} 2&1\\ 8&7\\ \end{bmatrix}= \begin{bmatrix} 1&0\\ 4&1\\ \end{bmatrix} \begin{bmatrix} 2&1\\ 0&3\\ \end{bmatrix}$
$L=[1041]L=\begin{bmatrix} 1&0\\ 4&1\\ \end{bmatrix}$ ， $U=[2103]U=\begin{bmatrix} 2&1\\ 0&3\\ \end{bmatrix}$

再进一步可以将 $A$ 进一步分解为 $A = L D U$
$A=[2187]=[1041][2103]=[1041][2003][11/201]A=\begin{bmatrix} 2&1\\ 8&7\\ \end{bmatrix}= \begin{bmatrix} 1&0\\ 4&1\\ \end{bmatrix} \begin{bmatrix} 2&1\\ 0&3\\ \end{bmatrix}= \begin{bmatrix} 1&0\\ 4&1\\ \end{bmatrix} \begin{bmatrix} 2&0\\ 0&3\\ \end{bmatrix} \begin{bmatrix} 1&1/2\\ 0&1\\ \end{bmatrix}$
考虑3x3的情况
假设没有行交换（no row exchange）：
$E_{3,2}E_{3,1}E_{2,1}A = U$
通过变换得：
$A = E_{2,1}^{-1}E_{3,1}^{-1}E_{3,2}^{-1}U=LU$

3. 为什么要进行LU分解？

为什么 $A = L U$ 的形式比 $E A = U$ 要好？
举个典型的例子:
假设 $E2,1=[100−210001]E_{2,1}=\begin{bmatrix} 1&0&0\\ -2&1&0\\ 0&0&1 \end{bmatrix}$ ， $E3,2=[1000100−51]E_{3,2}=\begin{bmatrix} 1&0&0\\ 0&1&0\\ 0&-5&1 \end{bmatrix}$ ，没有 $E_{3,1}$ （即第三行第一列本来就是0）。
然后做矩阵乘法：
$E_{3,2}E_{2,1} = \begin{bmatrix} 1&0&0\\ 0&1&0\\ 0&-5&1 \end{bmatrix} \begin{bmatrix} 1&0&0\\ -2&1&0\\ 0&0&1 \end{bmatrix}= \begin{bmatrix} 1&0&0\\ -2&1&0\\ (10)&-5&1 \end{bmatrix}=E$
结果第三行第一列中有个10，而这个10是由第一行影响得到的，第一行的-2倍加到第二行之后，新第二行的-5倍加到第三行。不可以由两个 $E$ 矩阵直观地看出来。
接下来我们来看以逆的角度考虑：
$E_{2,1}^{-1}E_{3,2}^{-1} = \begin{bmatrix} 1&0&0\\ 2&1&0\\ 0&0&1 \end{bmatrix} \begin{bmatrix} 1&0&0\\ 0&1&0\\ 0&5&1 \end{bmatrix}= \begin{bmatrix} 1&0&0\\ 2&1&0\\ 0&5&1 \end{bmatrix}=L$
这时候可以得到: $L=E_{2,1}^{-1}+E_{3,1}^{-1}+E_{3,2}^{-1}$ ，只要在矩阵相应部分写上消元乘数就可以得到。
结论：
$A = L U$ 包含了矩阵消元法的全部信息，即只要将原矩阵按照 $L$ 矩阵从左到右，从上到下的顺序，按照对应系数进行初等行变换，就可以得到 $U$ 。
同理，从列的角度考虑即：将原矩阵按照 $U$ 矩阵从上到下，从左到右的顺序经过初等列变换，可以得到 $L$ 。

4. LU分解的总运算步数问题(复杂度)

如果将一次乘法之后加法看作是一次运算。
1. 对 $n×nn\times n$ 的矩阵进行消元，运算步数为：
$\times 1$
近似约为：
$\approx n^2+(n-1)^2+...+1^2 = \frac{1}{6}n(n+1)(2n+1) \approx \frac{1}{3}n^2$
2. 对右侧向量 $b$ 进行运算，运算步数为：
$\approx n^2$

所以在完成LU分解后，对于有几个右侧向量的情况，可以节省很多时间，不必每次都对左侧进行行变换。

5. 转置与置换初步介绍（transpose and permutation）

置换矩阵可以用来做行交换（row exchange）
3x3矩阵 $I$ 有6种permutation(行交换方法)：
$\begin{bmatrix} 1&0&0\\ 0&1&0\\ 0&0&1\\ \end{bmatrix}, \begin{bmatrix} 0&1&0\\ 1&0&0\\ 0&0&1\\ \end{bmatrix}, \begin{bmatrix} 0&0&1\\ 0&1&0\\ 1&0&0\\ \end{bmatrix}\\ \begin{bmatrix} 1&0&0\\ 0&0&1\\ 0&1&0\\ \end{bmatrix}, \begin{bmatrix} 0&1&0\\ 0&0&1\\ 1&0&0\\ \end{bmatrix}, \begin{bmatrix} 0&0&1\\ 1&0&0\\ 0&1&0\\ \end{bmatrix}$
这些矩阵两两相乘的结果仍在这个矩阵集合中（相当于将右侧矩阵再进行一次行交换），这些矩阵的逆矩阵也在这个集合中，因为就相当于把原先对调的两行调回去。
且这些permutation矩阵有一个重要的性质：
$P^{-1}=P^T$