更好的阅读体验 & 最新博客内容 & 配套讲义与真题:
- 高速体验:https://wiki.dwj601.cn/base/linear-algebra/
- 永久链接:https://explorer-dong.github.io/base/linear-algebra/
前言
本篇博客初稿完成于 2024.01.06,即大二上学期期末。参考《工程数学 线性代数》同济第七版。
由于初稿写作时博主的水平有限并且偏向于应试,写作水平多有不足并且内容有所缺失。现在在学习 ML 和 DL 甚至数字图像处理时,几乎满屏都是矩阵。汗颜的是,由于初学时几乎都是死记硬背以及应试,我一度怀疑自己没学过线代🤡,因此这篇博客会持续更新。
后续的更新会对内容进行整合与补充,包括二次型、线性空间和线性变换。同时偏向实际的应用,包括 AI 相关的矩阵计算和矩阵微积分、数字图像处理相关的变换策略。打星 ( ∗ ) (*) (∗) 的内容表示个人认为比较重要的部分。
我习惯于在开始学习某个领域的知识之前问自己几个问题。为什么要学习线性代数?为什么会有线性代数?
线性代数是为了解决多元线性方程组而诞生的。(2024.01.06)
真的是这样吗?看到一篇博客是从程序语言角度进行理解的,还挺有意思:8分钟带你彻底弄懂《线性代数》。(2024.10.21)
1 行列式
1.1 基本概念
全排列。当一个序列含有 n n n 个数并且序列中每一个位置只出现 [ 1 , n ] [1,n] [1,n] 一次,则称该序列为全排列。
逆序数。一个排列中每一个元素之前比其大的元素数量之和,用 python 统计就是这样的:
对换。顾名思义就是指排列中两个元素进行交换的操作。有以下两个结论:
- 一个排列中两个元素对换,排列逆序数的奇偶性改变。
- 奇排列对换成标准排列的对换次数为奇数,偶排列对换成标准排列的对换次数为偶数。(标准排列就是 n n n 个数从小到大升序排列)
1.2 定义 *
我们以 n 阶行列式为例。
n
n
n 阶行列式的值为
n
!
n!
n! 个项之和,每一项的组成方式为:每行选一个元素,每列选一个元素,这些元素之积,符号为
(
−
1
)
N
(
r
o
w
)
+
N
(
c
o
l
)
(-1)^{N(row)+N(col)}
(−1)N(row)+N(col)
1.3 性质
行列式的性质可以用来简化求值,下面简单介绍一下 5 个常见的行列式性质及其推论,相关的证明都可以用定义证出来,故省略。
-
行列式与其转置行列式相等。
-
对换行列式的两个行或者列,行列式的符号改变。
- 推论。若行列式有两行或两列完全相同,则行列式的值为 0。
-
若行列式的某一行/列 × k \times k ×k,则行列式的值也 × k \times k ×k。
- 推论一。行列式的某一行/列中的公因子可以提到行列式之外。
- 推论二。若行列式有两行/列成比例,则行列式的值为零。
-
若行列式的某一行/列都是两数之和,则可以拆分成两个行列式之和。
-
把行列式的某一行/列乘一个常数累加到另一行/列上,行列式的值不变。
关于行列式求值的技巧。在一开始对换行或者列的时候,尽可能保证左上角是数字 1,从而配凑出上三角进而直接用对角线之积求值。
1.4 按行/列展开
本目简单介绍一下行列式求值的另一个策略:按行/列展开。我们用 D 表示行列式 (Determinant)。用 M i j M_{ij} Mij 表示余子式,即行列式去掉 D i j D_{ij} Dij 元素所在的行和列后剩余元素拼接起来的行列式。用 A i j A_{ij} Aij 表示代数余子式,其中 A i j = ( − 1 ) i + j M i j A_{ij}=(-1)^{i+j}M_{ij} Aij=(−1)i+jMij。
若行列式的某一行/列只有一个元素不为零,则有:
D
=
a
i
j
A
i
j
D=a_{ij}A_{ij}
D=aijAij
{% fold light @证明 %}
对于特殊情况。即不为零的元素在左上角,则根据上述分块矩阵,可知
D
=
(
−
1
)
1
+
1
a
i
j
M
i
j
=
a
i
j
A
i
j
D =(-1)^{1+1}a_{ij}M_{ij}= a_{ij}A_{ij}
D=(−1)1+1aijMij=aijAij
对于一般情况。即某行/列唯一不为零的元素在任意位置,则经过
i
+
j
−
2
i+j-2
i+j−2 次对换后,就是上述特殊情况,可知:
D
=
(
−
1
)
i
+
j
−
2
a
i
j
M
i
j
=
(
−
1
)
i
+
j
a
i
j
M
i
j
=
a
i
j
A
i
j
D =(-1)^{i+j-2}a_{ij}M_{ij}=(-1)^{i+j}a_{ij}M_{ij}= a_{ij}A_{ij}
D=(−1)i+j−2aijMij=(−1)i+jaijMij=aijAij
{% endfold %}
若行列式的某一行/列有多个元素不为零,则有:
D
=
∑
i
=
1
n
a
x
i
A
x
i
D =\sum_{i = 1}^n a_{xi}A_{xi}
D=i=1∑naxiAxi
{% fold light @证明 %}
将展开的那一行/列通过加法原理进行拆分,然后利用上述只有一个元素不为零时的一般情况进行证明即可。
{% endfold %}
{% fold light @例题 %}
已知 n 阶行列式 D,按第 x x x 行展开后有 D = ∑ i = 1 n a x i A x i D=\sum_{i=1}^n a_{xi}A_{xi} D=∑i=1naxiAxi,现在将 a x i a_{xi} axi 替换为 a y i a_{yi} ayi 且 x ≠ y x\ne y x=y,则 ∑ i = 1 n a y i A x i = 0 \sum_{i=1}^n a_{yi}A_{xi}=0 ∑i=1nayiAxi=0。道理很简单,现在求解的值其实也是一个行列式,并且这个行列式有两行/列的元素完全相等,那么显然的行列式的值就是 0。例如下面这道题:显然 (1) 的结果为 0,(2) 只需要配凑一下即可。
{% endfold %}
特殊的行列式
下面补充几个特殊的行列式及其求值方法。
分块行列式
0 在左下或右上就是左上角与右下角行列式之积( D = D 1 D 2 D=D_1D_2 D=D1D2),0 在左上或右下就是左下角与右上角行列式之积加上符号判定。
证明。分区域转换为上三角即可。
2n 阶行列式
先行对换再列对换,通过分块行列式和数学归纳法,可得行列式的值是一个等比数列。
范德蒙德行列式 *
证明。首先从最后一行开始,依次减去前一行的 x 1 x_1 x1 倍,凑出第一列一个元素不为零的情况,最后通过数学归纳法即可求解。项数为 C n 2 C_n^2 Cn2。
2 矩阵
2.1 定义
相较于行列式是一个数,矩阵就是一个数表。下面补充几个常见的名词:
- 方阵。若行列数相等均为 n,则可以称为方阵或 n 阶矩阵或 n 阶方阵。
- 对角阵。即方阵的非主对角线元素均为 0。符号表示为 Λ = d i a g ( λ 1 , λ 2 , ⋯ , λ n ) \Lambda=diag(\lambda_1,\lambda_2,\cdots,\lambda_n) Λ=diag(λ1,λ2,⋯,λn)
- 单位阵。即方阵的主对角线全 1,其余全 0。符号表示为 E = d i a g ( 1 , 1 , ⋯ , 1 ) E=diag(1,1,\cdots,1) E=diag(1,1,⋯,1)
- 纯量矩阵。主对角线上元素全为 λ \lambda λ ,其余全 0。符号表示为 S = d i a g ( λ , λ , ⋯ , λ ) S=diag(\lambda,\lambda,\cdots,\lambda) S=diag(λ,λ,⋯,λ)
2.2 运算
2.2.1 元素级运算
两个形状相同的矩阵按元素一个一个加、减、乘、除。
2.2.2 向量级运算
向量有内积和外积,也被称为点积和叉积。前者计算出一个标量,后者计算出一个方阵。以 x , y , z x,y,z x,y,z 三个 n n n 维向量,实数 λ \lambda λ 为例,介绍以下三个知识点。
向量的内积
- [ x , y ] = [ y , x ] [x, y] = [y, x] [x,y]=[y,x]
- [ λ x , y ] = λ [ x , y ] [\lambda x, y] = \lambda [x, y] [λx,y]=λ[x,y]
- [ x + y , z ] = [ x , z ] + [ y , z ] [x + y, z] = [x, z] + [y, z] [x+y,z]=[x,z]+[y,z]
- [ x , x ] ≥ 0 [x, x] \geq 0 [x,x]≥0,且当 x ≠ 0 x \ne 0 x=0 时有 [ x , x ] > 0 [x, x] > 0 [x,x]>0
向量的长度
- 非负性:当 x ≠ 0 x \ne 0 x=0 时, ∥ x ∥ > 0 \|x\| > 0 ∥x∥>0;当 x = 0 x = 0 x=0 时, ∥ x ∥ = 0 \|x\| = 0 ∥x∥=0
- 齐次性: ∥ λ x ∥ = ∥ λ ∥ ∥ x ∥ \|\lambda x\| = \|\lambda\|\|x\| ∥λx∥=∥λ∥∥x∥
- 三角不等式: ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ \|x + y\| \le \|x\| + \|y\| ∥x+y∥≤∥x∥+∥y∥
向量的夹角
- 当 ∥ x ∥ = 1 \|x\| = 1 ∥x∥=1 时,称 x x x 为单位向量
- 当 ∥ x ∥ ≠ 0 , ∥ y ∥ ≠ 0 \|x\| \ne 0, \|y\| \ne 0 ∥x∥=0,∥y∥=0 时, θ = arccos [ x , y ] ∥ x ∥ ∥ y ∥ \theta = \arccos \frac{[x, y]}{\|x\|\|y\|} θ=arccos∥x∥∥y∥[x,y]
2.2.3 矩阵级运算
矩阵乘法算律:
我们分别解释上面的「矩阵乘法」算律:
(1) 结合律。
(2) 分配率。
(3) 常数因子可以随意交换顺序。
(4) 单位阵可以随意交换顺序或直接省略。
(5) 幂运算。由于有结合律存在,因此当 A、B 两个方阵可交换时,有幂运算规律。
注意:
-
矩阵乘法的基本规则。 A B = C AB=C AB=C 中 c i j c_{ij} cij 是 A A A 的第 i i i 行与 B B B 的第 j j j 列元素依次相乘并求和的结果。
-
矩阵乘法没有交换律。 A B AB AB 称为 A A A 左乘 B B B。交换成立的前提是 A A A 和 B B B 左乘和右乘合法相等才可以。
2.2.4 矩阵的转置
矩阵转置算律:
证明 (4)。左边的 c i j c_{ij} cij 其实应该是 A B AB AB 的 c j i c_{ji} cji ,对应 A A A 的第 j j j 行与 B B B 的第 i i i 列,那么反过来对于 i j ij ij 就是 B B B 转置的第 i i i 行与 A A A 转置的第 j j j 列。
对称矩阵。对于一个方阵 A A A,若有 A = A T A = A^T A=AT 则称 A A A 为对称阵。给一个对阵矩阵的例题:
2.2.5 方阵的行列式
行列式算律:
伴随矩阵:
A
A
∗
=
A
∗
A
=
∣
A
∣
E
AA^* = A^* A = \left | A \right |E
AA∗=A∗A=∣A∣E
2.3 逆矩阵
定义:
- 逆矩阵。对于矩阵 A A A,若有 A B = B A = E AB = BA = E AB=BA=E ,则称 B B B 为 A A A 的逆矩阵。
- 奇异矩阵。对于方阵 A A A,若 ∣ A ∣ = 0 |A| = 0 ∣A∣=0,则 A A A 为奇异矩阵。
- 非奇异矩阵。对于方阵 A A A,若 ∣ A ∣ ≠ 0 |A| \ne 0 ∣A∣=0,则 A A A 为非奇异矩阵。
性质:
- 唯一性。如果矩阵 A A A 可逆,则 A A A 的逆矩阵是唯一的。
- 行列式。如果矩阵 A A A 可逆,则 ∣ A ∣ ≠ 0 |A| \ne 0 ∣A∣=0。
- 矩阵可逆的必要条件。若 A B = E AB=E AB=E (或 B A = E BA = E BA=E),则 A A A 可逆且 B = A − 1 B = A^{-1} B=A−1
求法:
- 若 ∣ A ∣ ≠ 0 |A| \ne 0 ∣A∣=0 ,则矩阵 A 可逆,且 A − 1 = 1 ∣ A ∣ A ∗ A^{-1} = \frac{1}{|A|}A^* A−1=∣A∣1A∗
逆矩阵算律:
(
A
−
1
)
−
1
=
A
(
λ
A
)
−
1
=
1
λ
A
−
1
(
A
B
)
−
1
=
B
−
1
A
−
1
(
A
T
)
−
1
=
(
A
−
1
)
T
∣
A
−
1
∣
=
∣
A
∣
−
1
∣
A
∗
∣
=
∣
A
∣
n
−
1
\begin{aligned} {(A^{-1})}^{-1} &= A \\ ({\lambda A})^{-1} &= \frac{1}{\lambda} A^{-1}\\ ({AB})^{-1} &= B^{-1}A^{-1} \\ (A^T)^{-1} &= (A^{-1})^{T} \\ |A^{-1}| &= {|A|}^{-1} \\ |A^*| &= {|A|}^{n - 1} \end{aligned}
(A−1)−1(λA)−1(AB)−1(AT)−1∣A−1∣∣A∗∣=A=λ1A−1=B−1A−1=(A−1)T=∣A∣−1=∣A∣n−1
2.4 克拉默法则
应用:
-
求解未知数数量和方程个数相等,且系数行列式不为零的线性方程组
-
是求解一般线性方程组的一个特殊场景
结论:
如果线性方程组
的系数矩阵 A 的行列式不为零,即
则方程组有唯一解
其中 A j ( j = 1 , 2 , . . . , n ) A_j(j=1,2,...,n) Aj(j=1,2,...,n) 是把系数矩阵 A 中第 j j j 列的元素用方程组右端的常数项代替后所得到的 n 阶矩阵,即
证明:
第一步:方程组转化为矩阵方程
第二步:应用逆矩阵消元
第三步:应用行列式的性质计算
2.5 矩阵分块法
个人感觉就是一种向量化的更高级的思维,对于一个向量,进行全新向量的拆解,从而实现拆分计算。以下是 5 个拆分规则,重点关注第 5 点,即分块对角矩阵以及最后的按行按列分块的两个应用。
2.5.1 拆分规则
首先需要知道的是,在对矩阵进行分块计算的时候,前提有两个:一个是两个矩阵一开始的规格要相同,另一个是两个矩阵分块之后的规格也要相同。
按位加:
若
则
按位数乘:
若
则
矩阵乘法:
若
则
其中
按位转置:
若
则
对角分块矩阵:
其中 A 1 , A 2 , . . . , A s A_1,A_2,...,A_s A1,A2,...,As 都是方阵,则称 A A A 为对角分块矩阵
2.5.2 运算性质
幂运算就是主对角线相应元素的幂运算
矩阵行列式运算性质
矩阵的逆就是主对角线的块按位取逆
按行按列分块的应用
- A T A = O A^T A=O ATA=O 的充要条件是 A = O A=O A=O
- 线性方程组的三种表示方式:
- 就是类似于一开始的矩阵数表的表示方式
- 将系数表示为一个矩阵,将未知数表示成一个矩阵,将常数项也表示成一个矩阵
- 同上,只是未知数保持不变,即 x 1 a 1 + x 2 a 2 + ⋯ + x n a 3 = b x_1 {a_1} + x_2 {a_2} + \cdots + x_n {a_3} = {b} x1a1+x2a2+⋯+xna3=b
- 线性方程组的解的两种表示方式:
- 一一表示
- 列向量表示
2.5.3 好题举例
分块的整体运算思想 + 矩阵提取公因子
逆矩阵的按定义的求法,即配凑求出逆矩阵(常规计算法是利用了伴随矩阵的计算思想)
3 矩阵的初等变换
3.1 矩阵的初等变换
3.1.1 基本概念
定义。我们从矩阵的初等行变换出发定义矩阵的初等变换,共有以下三种行变换:
- 第 i 行与第 j 行对换。 r i ↔ r j r_i \leftrightarrow r_j ri↔rj
- 第 i 行乘以一个常数 k。 r i ← r i × k ( k ≠ 0 ) r_i \leftarrow r_i \times k\ (k \neq 0) ri←ri×k (k=0)
- 第 i 行加上第 j 行的 k 倍。 r i ← r i + k r j r_i \leftarrow r_i + kr_j ri←ri+krj
将上述的行变换全部置换为列变换,就是矩阵的初等列变换。初等行变换与初等列变化统称初等变换。注意三种变换都是可逆的,也就是说所有的变换都是等价的。
符号表示。为了更方便的表示和书写,我们定义以下矩阵初等变换的符号,对于矩阵 A 和矩阵 B 而言:
- A A A 经过有限次「初等行变换」转化为矩阵 B B B,就称 A A A 与 B B B 行等价,记作 A ∼ r B A \stackrel{r}{\sim} B A∼rB
- A A A 经过有限次「初等列变换」转化为矩阵 B B B,就称 A A A 与 B B B 列等价,记作 A ∼ c B A \stackrel{c}{\sim} B A∼cB
- A A A 经过有限次「初等变换」转化为矩阵 B B B,就称 A A A 与 B B B 等价,记作 A ∼ B A \sim B A∼B
初等变换的数学意义。所有的变换都等价于在原始矩阵上左乘或右乘一个初等矩阵 E(Elementary Matrix)。注意初等矩阵表示对单位阵进行上述三种变换后的结果。例如:
-
对 A m × n A_{m\times n} Am×n 施行一次初等行变换,相当于在 A A A 的左边乘以相应的 m m m 阶初等矩阵。
-
对 A m × n A_{m\times n} Am×n 施行一次初等列变换,相当于在 A A A 的右边乘以相应的 n n n 阶初等矩阵。
性质。初等变换拥有三大特性:
- 自反性: A ∼ A A \sim A A∼A
- 对称性:若 A ∼ B A \sim B A∼B,则 B ∼ A B \sim A B∼A
- 传递性:若 A ∼ B A\sim B A∼B, B ∼ C B\sim C B∼C ,则 A ∼ C A \sim C A∼C
三种形式的矩阵。
-
行阶梯形矩阵。可划出一条阶梯线,线下方全为零;每个台阶高度只有一行,台阶数即是非零行的行数,阶梯线的竖线后面的第一个元素为非零元。例如:
( 2 ‾ 4 − 1 0 4 0 5 ‾ − 1 − 7 3 0 0 0 1 ‾ − 3 0 0 0 0 0 ) \begin{pmatrix} \underline{2} & 4 & -1 & 0 & 4 \\ 0 & \underline{5} & -1 & -7 & 3 \\ 0 & 0 & 0 & \underline{1} & -3 \\ 0 & 0 & 0 & 0 & 0 \end{pmatrix} 20004500−1−1000−71043−30 -
行最简形矩阵。是行阶梯形矩阵,且非零行的第一个非零元为1,它所在列的其他元素都为零。例如:
( 1 0 − 1 0 4 0 1 − 1 0 3 0 0 0 1 − 3 0 0 0 0 0 ) \begin{pmatrix} 1 & 0 & -1 & 0 & 4 \\ 0 & 1 & -1 & 0 & 3 \\ 0 & 0 & 0 & 1 & -3 \\ 0 & 0 & 0 & 0 & 0 \end{pmatrix} 10000100−1−100001043−30 -
标准形。左上角是一个单位矩阵,其余元素全是零。 m × n m \times n m×n 的矩阵 A A A 总可经过初等变换化为标准形。例如:
F = ( E r O O O ) m × n F = \begin{pmatrix} E_r & O \\ O & O \end{pmatrix}_{m \times n} F=(ErOOO)m×n
此标准形由 m , n , r m, n, r m,n,r 三个数唯一确定,其中 r r r 就是行阶梯形矩阵中非零行的行数。
3.1.2 与逆矩阵的关系
矩阵初等变换的存在性定理。对于 A m × n A_{m\times n} Am×n 和 B m × n B_{m\times n} Bm×n:
- A ∼ r B ⟺ A \stackrel{r}{\sim} B \iff A∼rB⟺ 存在 m 阶可逆阵 P 使得 PA=B
- A ∼ c B ⟺ A \stackrel{c}{\sim} B \iff A∼cB⟺ 存在 n 阶可逆阵 Q 使得 AQ=B
- A ∼ B ⟺ A \sim B \iff A∼B⟺ 存在 m 阶可逆阵 P 及 n 阶可逆阵 Q 使得 PAQ=B
如何求解变换矩阵呢?由于 (2) 中的 Q 可以通过转置转化为求解 (1) 中的 P,因此我们以求解上述 (1) 中的 P 为例:
P
A
=
B
⟺
{
P
A
=
B
P
E
=
P
⟺
(
A
E
)
∼
r
(
B
P
)
PA=B \iff \begin{cases} PA=B\\ PE=P \end{cases} \iff (A\quad E) \stackrel{r}{\sim} (B \quad P)
PA=B⟺{PA=BPE=P⟺(AE)∼r(BP)
即对
(
A
E
)
(A \quad E)
(AE) 作初等行变换,当把
A
A
A 变为
B
B
B 时,
E
E
E 就变为了需要求解的可逆阵
P
P
P。
方阵可逆的等价推导。方阵 A 可逆
⟺
\iff
⟺
A
∼
r
E
A \stackrel{r}{\sim} E
A∼rE。于是证明方阵
A
A
A 可逆就又多了一个策略,即将
A
A
A 经过有限次的初等行变换之后变成了单位阵,就可以说明 A 是可逆矩阵。求解过程如下:
A
为可逆方阵
⟺
{
A
−
1
A
=
E
A
−
1
E
=
A
−
1
⟺
(
A
E
)
∼
r
(
E
A
−
1
)
A\text{ 为可逆方阵} \iff \begin{cases} A^{-1}A=E\\ A^{-1}E=A^{-1} \end{cases} \iff (A\quad E) \stackrel{r}{\sim} (E \quad A^{-1})
A 为可逆方阵⟺{A−1A=EA−1E=A−1⟺(AE)∼r(EA−1)
即对
(
A
E
)
(A \quad E)
(AE) 作初等行变换,当把
A
A
A 变为
E
E
E 时,
E
E
E 就变为了
A
−
1
A^{-1}
A−1。显然此法不仅可以用来证明一个可逆阵,也可以顺带计算出其逆矩阵。
3.1.3 让我们解个线性方程组吧
问题。已知矩阵 A , B A,B A,B,且 A X = B AX=B AX=B,现在需要求解 X X X 矩阵。
求解。首先需要证明 A A A 可逆,然后计算 A − 1 B A^{-1}B A−1B 即为所求。采用本节的知识:如果 A ∼ r E A \stackrel{r}{\sim} E A∼rE,则 A A A 可逆,即 P A = E PA=E PA=E。还需要求 A − 1 B A^{-1}B A−1B 怎么办呢?显然可以先算逆矩阵再乘 B,但是!如果我们对 ( A B ) (A\quad B) (AB) 作初等行变换,当那么当 A A A 转化为 E E E 后,B 就转化为了 A − 1 B A^{-1}B A−1B,正好就是我们要求的!非常的巧妙。
补充。上述求解 X X X 的过程本质上就是解一个线性方程组,到目前为止我们已经有以下策略了:
- 高中学的。消元。
- chapter2.3。先求逆矩阵 A − 1 A^{-1} A−1,再将 A − 1 A^{-1} A−1 与 B B B 相乘。
- chapter2.4。克拉默法则。
- 上面刚学的。矩阵的初等变换。
3.2 矩阵的秩
我们定义矩阵秩为矩阵的非零子式的最高阶数,记作 R ( A ) R(A) R(A)。关于矩阵的秩,有以下性质:
-
转置不变性: R ( A T ) = R ( A ) R(A^T)=R(A) R(AT)=R(A)
-
相似不变性:若 $A \sim B $,则 R ( A ) = R ( B ) R(A)=R(B) R(A)=R(B)
-
初等变换不变性:若 P , Q P,Q P,Q 可逆,则 R ( P A Q ) = R ( A ) R(PAQ)=R(A) R(PAQ)=R(A)
-
乘法性质: 0 ≤ R ( A m × n ) ≤ min { m , n } 0 \le R(A_{m\times n}) \le \min \{m, n\} 0≤R(Am×n)≤min{m,n}
-
加法性质:
-
压缩性:若 A m × n A_{m\times n} Am×n 的秩为 r r r,则 A A A 一定可以转化为
[ E r O O O ] \begin{bmatrix} E_r & O \\ O & O \end{bmatrix} [ErOOO]
3.3 线性方程组的解
线性方程组的基本求解策略。利用 矩阵的初等变换 和 矩阵的秩 进行求解。
对于 A x = b Ax=b Ax=b 的线性方程组:
- 无解的充要条件: R ( A ) < R ( A , b ) R(A)<R(A,b) R(A)<R(A,b)
- 有唯一解的充要条件: R ( A ) = R ( A , b ) = n R(A)=R(A,b)=n R(A)=R(A,b)=n
- 有无限多解的充要条件: R ( A ) = R ( A , b ) < n R(A)=R(A,b)<n R(A)=R(A,b)<n
求解齐次线性方程组:
- 化简为行最简 or 行阶梯
求解非齐次线性方程组:
- 化简为行最简 or 行阶梯
4 向量组的线性相关性
4.1 向量组及其线性组合
4.1.1 n 维向量的概念
显然的 n > 3 n>3 n>3 的向量没有直观的几何形象,所谓向量组就是由同维度的列(行)向量所组成的集合。
向量组与矩阵的关系:
4.1.2 线性组合和线性表示
定义:
(一)线性组合:
(二)线性表示:
判定:转化为判定方程组有解问题,从而转化为求解矩阵的秩的问题 5
-
判定 向量 b b b 能否被 向量组 A A A 线性表示:
-
判定 向量组 B B B 能否被 向量组 A A A 线性表示:
该判定定理有以下推论:
-
判定 向量组 B B B 与 向量组 A A A 等价:
4.2 向量组的线性相关性
定义:
判定:
-
定理一:
证明:按照定义,只需要移项 or 同除,进行构造即可
-
定理二:
证明:按照定义,转化为齐次线性方程组解的问题
- 有非零解 ⇔ \Leftrightarrow ⇔ 无数组解(将解方程取倍数即可), R ( A ) = R ( A , 0 ) < m R(A)=R(A,0)<m R(A)=R(A,0)<m
- 仅有零解 ⇔ \Leftrightarrow ⇔ 唯一解, R ( A ) = R ( A , 0 ) = m R(A)=R(A,0)=m R(A)=R(A,0)=m
结论:
-
结论一:
证明: R ( A ) < m → R ( B ) ≤ R ( A ) + 1 < m + 1 R(A)<m \to R(B)\le R(A)+1 <m+1 R(A)<m→R(B)≤R(A)+1<m+1
-
结论二:
证明: R ( A x × m ) = m → R ( A b ) = m R(A_{x\times m})=m \to R\binom{A}{b}=m R(Ax×m)=m→R(bA)=m
-
结论三:
证明: R ( A ) ≤ n < m R(A)\le n <m R(A)≤n<m
-
结论四:
证明: R ( A ) = m , R ( A , b ) < m + 1 → A x = b 有唯一解 R(A)=m,R(A,b)<m+1 \to Ax=b\text{有唯一解} R(A)=m,R(A,b)<m+1→Ax=b有唯一解
- max { R ( A ) , R ( b ) } ≤ R ( A , b ) ≤ m + 1 → m ≤ R ( A , b ) ≤ m + 1 \max \{ R(A),R(b) \} \le R(A,b) \le m+1 \to m \le R(A,b) \le m+1 max{R(A),R(b)}≤R(A,b)≤m+1→m≤R(A,b)≤m+1
- 又 R ( A , b ) < m + 1 R(A,b)<m+1 R(A,b)<m+1
- 故 R ( A , b ) = m R(A,b)=m R(A,b)=m
- 因此 R ( A ) = R ( A , b ) = m → 有唯一解 R(A)=R(A,b)=m \to \text{有唯一解} R(A)=R(A,b)=m→有唯一解
4.3 向量组的秩
4.3.1 最大无关组的定义
定义一:
注意:
- 最大无关组之间等价
- 最大无关组 A 0 A_0 A0 和原向量组 A A A 等价
定义二:
4.3.2 向量组的秩和矩阵的秩的关系
4.3.3 向量组的秩的结论
证明:全部可以使用矩阵的秩的性质进行证明
4.4 向量空间
4.4.1 向量空间的概念
可以从高中学到的平面向量以及空间向量入手进行理解,即平面向量就是一个二维向量空间,同理空间向量就是一个三维向量空间,那么次数就是拓展到 n 维向量空间,道理是一样的,只不过超过三维之后就没有直观的效果展示罢了。
4.4.2 向量空间的基与维数
同样可以从高中学到的向量入手,此处的基就是基底,维数就是有几个基底。所有的基之间都是线性无关的,这是显然的。然后整个向量空间中任意一个向量都可以被基线性表示,也就很显然了,此处有三个考点,分别为:
考点一:求解空间中的某向量 x 在基 A 下的坐标
其实就是求解向量 x 在基 A 的各个“轴”上的投影。我们定义列向量
λ
\lambda
λ 为向量 x 在基 A 下的坐标,那么就有如下的表述:
x
=
A
λ
x = A \ \lambda
x=A λ
考点二:求解过度矩阵 P
我们已知一个向量空间中的两个基分别为 A 和 B,若有矩阵 P 满足基变换公式: B = A P B = AP B=AP,我们就称 P 为从基 A 到基 B 的过渡矩阵
考点三:已知空间中的某向量 x 在基 A 下坐标为 λ \lambda λ,以及从基 A 到基 B 的过渡矩阵为 P,求解转换基为 B 之后的坐标 γ \gamma γ
4.5 线性方程组的解的结构
本目其实就是 3.3 目的一个知识补充,具体的线性方程组求解方法与 3.3 目几乎完全一致,只不过通过解的结构将解的结构进行了划分从而看似有些不同。但是殊途同归,都是一个东西。下面介绍本目与 3.3 目不同的地方:
我们从 3.3 目可以知道,无论是齐次线性方程组还是非齐次线性方程组,求解步骤都是:将系数矩阵(非齐次就是增广矩阵)进行行等价变换,然后对得到的方程组进行相对应未知变量的赋值即可。区别在于:
非齐次线性方程组的通解
=
非齐次线性方程组的一个特解
+
齐次线性方程组的通解
\text{非齐次线性方程组的通解}=\text{非齐次线性方程组的一个特解}+\text{齐次线性方程组的通解}
非齐次线性方程组的通解=非齐次线性方程组的一个特解+齐次线性方程组的通解
解释:我们将
- 齐次线性方程组记为 A x = 0 Ax=0 Ax=0,解为 η \eta η,则有 A η = 0 A \eta = 0 Aη=0
- 非齐次线性方程组记为 A x = b Ax=b Ax=b,假如其中的一个特解为 η ∗ \eta^* η∗,则 A η ∗ = b A\eta^*=b Aη∗=b,假如此时我们又计算出了该方程组的其次线性解 η \eta η,则有 A η = 0 A\eta=0 Aη=0。那么显然有 A ( η ∗ + η ) = b A(\eta^*+\eta)=b A(η∗+η)=b,此时 η ∗ + η \eta^* + \eta η∗+η 就是该非齐次线性方程组的通解
也就是说本目对 3.3 目的线性方程组的求解给出了进一步的结构上的解释,即非齐次线性方程组的解的结构是基于本身的一个特解与齐次的通解之上的,仅此而已。当然了,本目在介绍齐次线性方程组解的结构时还引入了一个新的定理:
若矩阵
A
m
×
n
的秩为
r
, 则该矩阵的解空间的维度(基础解系中线性无关向量的个数)就是
n
−
r
, 即:
\begin{aligned} \text{若矩阵 $A_{m\times n}$ 的秩为 $r$, 则该矩阵的解空间的维度(基础解系中线性无关向量的个数)就是 $n-r$, 即:} \end{aligned}
若矩阵 Am×n 的秩为 r, 则该矩阵的解空间的维度(基础解系中线性无关向量的个数)就是 n−r, 即:
d
i
m
S
=
n
−
r
dimS = n-r
dimS=n−r
该定理可以作为一些证明秩相等的证明题的切入点。若想要证明两个 $ n$ 元矩阵 A A A 和 B B B 的秩相等,可以转化为证明两个矩阵的基础解析的维度相等,即解空间相等。证明解空间相等进一步转向证明 A x = 0 Ax=0 Ax=0 与 B x = 0 Bx=0 Bx=0 同解,证明同解就很简单了,就是类似于证明一个充要条件,即证明 A x = 0 → B x = 0 Ax=0 \to Bx=0 Ax=0→Bx=0 以及 B x = 0 → A x = 0 Bx=0 \to Ax=0 Bx=0→Ax=0
5 相似矩阵及二次型
5.1 正交矩阵与正交变换
正交向量。即两向量内积为 0,类似于二维平面中两个垂直的非零向量。
正交向量组。
- 定义:向量组之间的任意两两向量均正交。
- 性质:正交向量组一定线性无关。
标准正交基。
-
定义:是某空间向量的基+正交向量组+每一个向量都是单位向量。
-
求解方法:施密特正交化求解标准正交基。
{% fold light @施密特正交化求标准正交基 %}
一、正交化
二、单位化
{% endfold %}
正交矩阵。
- 定义:满足 A T A = E or A A T = E A^TA=E\ \text{or} \ AA^T=E ATA=E or AAT=E 的方阵。
- 定理:正交矩阵的充要条件为矩阵的行/列向量为单位向量且两两正交。
正交变换。
- 定义:对于正交矩阵 A A A, y = A x y=Ax y=Ax 称为称为正交变换。
- 性质: ∣ ∣ y ∣ ∣ = y T y = x T A T A x = x T E x = x T x = ∣ ∣ x ∣ ∣ ||y||=\sqrt{y^Ty}=\sqrt{x^TA^TAx}=\sqrt{x^TEx}=\sqrt{x^Tx}=||x|| ∣∣y∣∣=yTy=xTATAx=xTEx=xTx=∣∣x∣∣,即向量经过正交变换之后长度保持不变。
5.2 特征值与特征向量
定义。对于一个 n n n 阶方阵 A A A,存在一个复数 λ \lambda λ 和一组 n n n 阶非零向量 x x x 使得 A x = λ x Ax =\lambda x Ax=λx,则称 x x x 为特征向量, λ \lambda λ 为特征值, ∣ A − λ E ∣ |A-\lambda E| ∣A−λE∣ 为特征多项式。
特征值的性质。
-
n n n 阶矩阵 A A A 在复数范围内含有 n n n 个特征值,且:
∑ i = 1 n λ i = ∑ i = 1 n a i i ∏ i = 1 n λ i = ∣ A ∣ \begin{aligned} \sum_{i = 1}^{n} \lambda _i =& \sum_{i = 1}^{n} a_{ii} \\ \prod_{i = 1}^{n} \lambda _i =& \left | A \right | \end{aligned} i=1∑nλi=i=1∏nλi=i=1∑naii∣A∣ -
若 λ \lambda λ 是 A A A 的特征值,则 ϕ ( λ ) \phi{(\lambda)} ϕ(λ) 是 ϕ ( A ) \phi{(A)} ϕ(A) 的特征值。
特征向量的性质。对于同一个矩阵,不同的 特征值对应的特征向量之间是 线性无关 的。
5.3 相似矩阵
5.3.1 定义
对于两个 n 阶方阵 A, B 而言,若存在可逆矩阵 P 使得
P
A
P
−
1
=
B
PAP^{-1}= B
PAP−1=B
则称 B 为 A 的相似矩阵,A 与 B 相似,也称对 A 进行相似变换,P 为相似变换矩阵
5.3.2 性质
若矩阵 A 与 B 相似,则 A 与 B 的特征多项式相同,则 A 与 B 的特征值也就相同,A 与 B 的行列式也就相同
5.3.3 矩阵多项式
一个矩阵 A 的多项式 ϕ ( A ) \phi{(A)} ϕ(A) 可以通过其相似矩阵 Λ \Lambda Λ 很轻松地计算出来为 P ϕ ( Λ ) P − 1 P \phi{(\Lambda)} P^{-1} Pϕ(Λ)P−1,即对角矩阵左乘一个可逆阵,右乘可逆阵的逆矩阵即可,而对角矩阵的幂运算就是对角元素的幂运算,故而非常方便就可以计算一个矩阵的多项式。那么计算的关键在于如何找到一个矩阵的相似矩阵?下面给出判定一个矩阵是否存在相似矩阵(可对角化)的判定定理:
5.4 对称矩阵的对角化
本目讨论一个 n 阶方阵具备什么条件才能拥有 n 个线性无关的特征向量,从而可对角化。但是对于一般的方阵,情况过于复杂,此处只讨论 n 阶对称矩阵。即:一个 n 阶对角矩阵具备什么条件才能拥有 n 个线性无关的特征向量,从而可对角化。
答案是 n 阶对角矩阵一定是可对角化的。因为有一个定理是这样的:对于一个对称矩阵 A 而言,一定可以找到一个正交矩阵 P 使得 P − 1 A P = Λ P^{-1}AP=\Lambda P−1AP=Λ,又由于正交矩阵一定是可逆矩阵,因此一定可以找到矩阵 A 的 n 个线性无关的特征向量,从而 A 一定可对角化。
对称矩阵的性质
- 对称矩阵的特征值均为实数
- 对称矩阵 A 的两个特征值 λ 1 \lambda _1 λ1 与 λ 2 \lambda _2 λ2 对应的两个特征向量分别为 P 1 P_1 P1 和 P 2 P_2 P2,若 λ 1 ≠ λ 2 \lambda_1 \ne \lambda_2 λ1=λ2,相比于一般的矩阵 P 1 P_1 P1 与 P 2 P_2 P2 线性无关,此时两者关系更强,即: P 1 P_1 P1 与 P 2 P_2 P2 正交
- 对称矩阵的每一个 k 重根,一定对应有 k 个线性无关的特征向量
因此本目相较于 5.3 目其实就是通过可对角化这一个概念,来告诉我们对称矩阵是一定可以求出对角矩阵的。而不用判断当前矩阵是否可对角化了。只不过在此基础之上还附加了一个小定理(也没给出证明),就是对称矩阵的相似变换矩阵一定是一个正交矩阵,那么也就复习回顾了 5.1 目中学到的正交矩阵的概念。为了求解出这个正交矩阵,我们需要在 5.3 目求解特征向量之后再加一个操作,即:对于一个 k 重根,根据上面的性质 3 我们知道当前的根一定有 k 个线性无关的特征向量,为了凑出最终的正交矩阵,我们需要对这 k 个线性无关的特征向量正交化。那么所有的特征值下的特征向量都正交化之后,又由性质 2 可知,不同的特征值下的特征向量又是正交的,于是最终的正交的相似变换矩阵也就求出来了,也就得到了对角矩阵 Λ \Lambda Λ
5.5 二次型及其标准型(部分)
本目只需要掌握到:将一个二次型转化为标准型,即可。其实就是比 5.4 目多一个将 二次齐次函数 的系数取出组成一个二次型的步骤。其中二次型就是一个对称矩阵。接着就是重复 5.4 目中的将对称矩阵转化为对角矩阵的过程了。
补
对称矩阵和正定性之间的关系
在最优化方法中我们需要通过目标函数海塞矩阵的正定性来判断凸性,显然的海塞矩阵是对称方阵。可以分别从特征值和行列式的角度进行判断。
特征值角度
- 一个对称矩阵 A 是正定的,当且仅当它的所有特征值 λ i > 0 \lambda_i>0 λi>0
- 一个对称矩阵 A 是正半定的,当且仅当它的所有特征值 λ i ≥ 0 \lambda_i \ge 0 λi≥0
行列式角度
- 一个对称矩阵 A 是正定的,当且仅当所有主子矩阵的行列式都大于零
- 一个对称矩阵 A 是正半定的,当且仅当所有主子矩阵的行列式都大于或等于零