第1讲 线性空间与线性算子
1.1 线性空间
数环
设 Z Z Z 为非空数集且其中任何两个相同或者相异的数之和、差与积仍属于 Z Z Z(即数集关于加、减、乘法运算封闭),则称 Z Z Z 是一个数环。
根据数环的定义有:
- 任何数环 Z Z Z 必含有0。因为若 a ∈ Z a \in Z a∈Z,则 a − a = 0 ∈ Z a-a = 0\in Z a−a=0∈Z;
- 若 a ∈ Z a \in Z a∈Z,则 − a ∈ Z -a \in Z −a∈Z,因为 0 − a = − a ∈ Z 0-a=-a \in Z 0−a=−a∈Z.
因此, Z = { 0 } Z=\{0\} Z={0} 是最小的数环。
数域
如果 P P P 是至少含有两个互异数的数环,并且其中任何两个数(不一定互异)之商仍属于 P P P(数集关于四则运算运算封闭),则说 P P P 是一个数域。
根据数域的定义有:
- 任何数域 P P P 必含有0与1。因为 P P P 中至少有一个数 a ≠ 0 a \neq 0 a=0,而 a / a = 1 ∈ P a / a=1 \in P a/a=1∈P;
- 若 a ≠ 0 a\neq 0 a=0,则 1 / a = a − 1 ∈ P 1/a = a^{-1} \in P 1/a=a−1∈P.
线性空间
设 V V V 是一个非空集合, P P P 是一个数域。如果 V V V 满足如下两个条件:
- 在
V
V
V 中定义一个封闭的加法运算,即当
x
,
y
∈
V
\mathbf x ,\mathbf y\in V
x,y∈V 时,有惟一的和
x
+
y
∈
V
\mathbf x+\mathbf y \in V
x+y∈V,并且加法运算满足下面四条性质:
- x + y = y + x \mathbf x+\mathbf y=\mathbf y+\mathbf x x+y=y+x(交换律)
- x + ( y + z ) = ( x + y ) + z \mathbf x+(\mathbf y+\mathbf z)=(\mathbf x+\mathbf y)+\mathbf z x+(y+z)=(x+y)+z(结合律)
- 存在零元素 0 ∈ V \mathbf 0\in V 0∈V,对于 V V V 中任何一个元素 x \mathbf x x 都有 x + 0 = x \mathbf x+ \mathbf 0 =\mathbf x x+0=x;
- 存在负元素,即对任一元素 x ∈ V \mathbf x\in V x∈V,存在一元素 y ∈ V \mathbf y \in V y∈V,使 x + y = 0 \mathbf x+\mathbf y=\mathbf 0 x+y=0,且称 y \mathbf y y 为 x \mathbf x x 的负元素,记为 − x -\mathbf x −x,于是有 x + ( − x ) = 0 \mathbf x+(-\mathbf x)= \mathbf 0 x+(−x)=0.
- 在
V
V
V 中定义一个封闭的数乘运算,即当
x
∈
V
,
λ
∈
P
\mathbf x \in V,\lambda\in P
x∈V,λ∈P 时,有惟一的
λ
x
∈
V
\lambda\mathbf x \in V
λx∈V,并且数乘运算满足下面四条性质:
- ( λ + μ ) x = λ x + μ x (\lambda+\mu)\mathbf x = \lambda \mathbf x+\mu\mathbf x (λ+μ)x=λx+μx(分配律)
- λ ( x + y ) = λ x + λ y \lambda(\mathbf x + \mathbf y)=\lambda\mathbf x+\lambda \mathbf y λ(x+y)=λx+λy(数因子分配律)
- λ ( μ x ) = ( λ μ ) x \lambda(\mu\mathbf x)=(\lambda\mu)\mathbf x λ(μx)=(λμ)x(结合律)
- 1 x = x 1\mathbf x=\mathbf x 1x=x.
其中 x , y , z x,y,z x,y,z 表示 V V V 中的任意元素; λ , μ \lambda,\mu λ,μ 是数域 P P P 中任意数;1 是数域 P P P 中的单位数。
这时,我们定义 V V V 是 数域 P P P 上的线性空间。
我们把 V V V 中满足8条性质且为封闭的加法及数乘两种运算,统称线性运算(线性空间的本质)。即定义了线性运算的集合,就称为线性空间。
线性空间的概念是集合和运算两者的结合。
基、维数与坐标
设 V V V 是数域 P P P 上的线性空间, x 1 , x 2 , ⋯ , x n \mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n x1,x2,⋯,xn ( n ≥ 1 n \geq 1 n≥1) 是属于 V V V 的任意 n n n 个向量,如果它满足:
- x 1 , x 2 , ⋯ , x n \mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n x1,x2,⋯,xn 线性无关;
- V V V 中任一向量 x \mathbf x x 均可由 x 1 , x 2 , ⋯ , x n \mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n x1,x2,⋯,xn 来线性表示;
则称 x 1 , x 2 , ⋯ , x n \mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n x1,x2,⋯,xn 是 V V V 的一组基(基底) ,并称 x 1 , x 2 , ⋯ , x n \mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n x1,x2,⋯,xn 为基向量。 n n n 称为线性空间 V V V 的维数,记为 dim V = n \text{dim } V = n dim V=n ,并称 V V V 为 n \mathbf n n 维线性空间,简记为 V n V^n Vn.
线性空间的基不是惟一的,但是不同基所含向量的个数是相等的,即线性空间的维数是确定的。
**定理:**设 x 1 , x 2 , ⋯ , x n \mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n x1,x2,⋯,xn 是 V n V^n Vn 的一组基,对于任何向量 x ∈ V n \mathbf x \in V^n x∈Vn,则它可以惟一地由 x 1 , x 2 , ⋯ , x n \mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n x1,x2,⋯,xn 线性表示。
设
x
1
,
x
2
,
⋯
,
x
n
\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n
x1,x2,⋯,xn 是线性空间
V
n
V^n
Vn 的一组基,对于任一向量
x
∈
V
n
\mathbf x \in V^n
x∈Vn,总有且仅有一组有序数
a
1
,
a
2
,
⋯
,
a
n
a_1,a_2,\cdots,a_n
a1,a2,⋯,an 使
x
=
a
1
x
1
+
a
2
x
2
+
⋯
+
a
n
x
n
\mathbf x=a_1\mathbf x_1+a_2\mathbf x_2+\cdots+a_n\mathbf x_n
x=a1x1+a2x2+⋯+anxn
a
1
,
a
2
,
⋯
,
a
n
a_1,a_2,\cdots,a_n
a1,a2,⋯,an 这组有序数就称为向量
x
\mathbf x
x 在基
x
1
,
x
2
,
⋯
,
x
n
\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n
x1,x2,⋯,xn 下的坐标,并记作
X
=
(
a
1
,
a
2
,
⋯
,
a
n
)
\mathbf X=(a_1,a_2,\cdots,a_n)
X=(a1,a2,⋯,an)
同一向量
x
\mathbf x
x 在不同的基下的坐标往往是不同的。
过渡矩阵与坐标变换公式
设
e
1
,
e
2
,
⋯
,
e
n
\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n
e1,e2,⋯,en 及
e
1
′
,
e
2
′
,
⋯
,
e
n
′
\mathbf e'_1,\mathbf e'_2,\cdots,\mathbf e'_n
e1′,e2′,⋯,en′ 是
V
n
V^n
Vn 中的两组基,且
{
e
1
′
=
c
11
e
1
+
c
21
e
2
+
⋯
+
c
n
1
e
n
,
e
2
′
=
c
12
e
1
+
c
22
e
2
+
⋯
+
c
n
2
e
n
,
e
n
′
=
c
1
n
e
1
+
c
2
n
e
2
+
⋯
+
c
n
n
e
n
\begin{cases} \mathbf e'_1 = c_{11}\mathbf e_1 + c_{21}\mathbf e_2+ \cdots+c_{n1}\mathbf e_n,\\ \mathbf e'_2 = c_{12}\mathbf e_1 + c_{22}\mathbf e_2+ \cdots+c_{n2}\mathbf e_n,\\ \\ \mathbf e'_n = c_{1n}\mathbf e_1 + c_{2n}\mathbf e_2+ \cdots+c_{nn}\mathbf e_n \end{cases}
⎩⎪⎪⎪⎨⎪⎪⎪⎧e1′=c11e1+c21e2+⋯+cn1en,e2′=c12e1+c22e2+⋯+cn2en,en′=c1ne1+c2ne2+⋯+cnnen
或者写成矩阵形式
(
e
1
′
,
e
2
′
,
⋯
,
e
n
′
)
=
(
e
1
,
e
2
,
⋯
,
e
n
)
C
\left(\mathbf e'_1, \mathbf e'_2,\cdots,\mathbf e'_n \right) = \left(\mathbf e_1, \mathbf e_2,\cdots,\mathbf e_n \right) \mathbf C
(e1′,e2′,⋯,en′)=(e1,e2,⋯,en)C
其中矩阵
C
=
(
c
11
c
12
⋯
c
1
n
c
21
c
22
⋯
c
2
n
c
n
1
c
n
2
⋯
c
n
n
)
\mathbf C=\left( \begin{matrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \\ c_{n1} & c_{n2} & \cdots & c_{nn} \\ \end{matrix} \right)
C=⎝⎜⎜⎛c11c21cn1c12c22cn2⋯⋯⋯c1nc2ncnn⎠⎟⎟⎞
称为由基 e 1 , e 2 , ⋯ , e n \mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n e1,e2,⋯,en 变到基 e 1 ′ , e 2 ′ , ⋯ , e n ′ \mathbf e'_1,\mathbf e'_2,\cdots,\mathbf e'_n e1′,e2′,⋯,en′ 的过渡矩阵。
设
x
∈
V
n
\mathbf x\in V^n
x∈Vn,且在两组基下的坐标分别为
(
x
1
,
x
2
,
⋯
,
x
n
)
(x_1,x_2,\cdots,x_n)
(x1,x2,⋯,xn) 及
(
x
1
′
,
x
2
′
,
⋯
,
x
n
′
)
(x'_1,x'_2, \cdots,x'_n)
(x1′,x2′,⋯,xn′),即
x
=
x
1
e
1
+
x
2
e
2
+
⋯
+
x
n
e
n
=
x
′
e
1
′
+
x
2
′
e
2
′
+
⋯
+
x
n
′
e
n
′
\mathbf x = x_1\mathbf e_1+x_2\mathbf e_2+\cdots+x_n\mathbf e_n = x'\mathbf e_1'+x_2'\mathbf e_2'+\cdots+x_n'\mathbf e_n'
x=x1e1+x2e2+⋯+xnen=x′e1′+x2′e2′+⋯+xn′en′
写成矩阵形式再代入过渡矩阵公式,可以得到
(
x
1
′
x
2
′
x
n
′
)
=
C
−
1
(
x
1
x
2
x
n
)
\left( \begin{matrix} x'_1 \\ x'_2 \\ \\ x'_n \\ \end{matrix} \right) =\mathbf C^{-1} \left( \begin{matrix} x_1 \\ x_2 \\ \\ x_n \\ \end{matrix} \right)
⎝⎜⎜⎛x1′x2′xn′⎠⎟⎟⎞=C−1⎝⎜⎜⎛x1x2xn⎠⎟⎟⎞
称为基变换式下向量的坐标变换公式。
线性子空间
设 V 1 V_1 V1 是数域 P P P 上线性空间 V V V 的一个子集,且这个子集对 V V V 已有的加法和数乘运算也构成线性空间,则称 V 1 V_1 V1 为 V V V 的线性子空间,简称子空间,记为 V 1 ⊆ V V_1 \sube V V1⊆V,当 V 1 ≠ V V_1 \neq V V1=V 时,记为 V 1 ⊂ V V_1 \sub V V1⊂V.
设 V 1 V_1 V1 是线性空间的 V V V 的一个非空子集,则 V 1 V_1 V1 是 V V V 的一个子空间的充分必要条件为
- 如果 x , y ∈ V 1 \mathbf x ,\mathbf y \in V_1 x,y∈V1,则 x + y ∈ V 1 \mathbf x + \mathbf y \in V_1 x+y∈V1:
- 如果 x ∈ V 1 \mathbf x \in V_1 x∈V1, k ∈ P k \in P k∈P,则 k x ∈ V 1 k\mathbf x \in V_1 kx∈V1.
每个线性空间至少有两个子空间,一个是自身,另一个是零向量构成的零子空间。这个子空间通常称为平凡子空间,其他子空间称为非平凡子空间或真子空间。
设
A
=
∈
R
m
×
n
\mathbf A = \in \Reals^{m\times n}
A=∈Rm×n,齐次线性方程组
A
x
=
0
\mathbf A\mathbf x=\mathbf 0
Ax=0
的全部解向量构成
n
n
n 维线性空间
R
n
\Reals^n
Rn 的一个子空间,称为齐次线性方程组的解空间,记作
N
(
A
)
N(\mathbf A)
N(A) 或
ker
(
A
)
\ker(\mathbf A)
ker(A) .因为解空间的基就是齐次线性方程组的基础解系,所以
dim
(
N
(
A
)
)
=
n
−
rank
(
A
)
\dim (N(\mathbf A))=n-\text{rank}(\mathbf A)
dim(N(A))=n−rank(A).
设
x
1
,
x
2
,
⋯
,
x
n
\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n
x1,x2,⋯,xn 是线性空间
V
V
V 中一组向量,这组向量所有可能的线性组合的集合
V
1
=
{
k
1
x
1
+
k
2
x
2
+
⋯
+
k
n
x
n
}
V_1=\{ k_1\mathbf x_1+k_2\mathbf x_2+\cdots+k_n\mathbf x_n \}
V1={k1x1+k2x2+⋯+knxn}
V
1
V_1
V1 是
V
V
V 的子空间,这个子空间称作由
x
1
,
x
2
,
⋯
,
x
n
\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n
x1,x2,⋯,xn 生成的子空间,记作
Span
(
x
1
,
x
2
,
⋯
,
x
n
)
=
{
k
1
x
1
+
k
2
x
2
+
⋯
+
k
n
x
n
}
\text{Span}(\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n)=\{k_1\mathbf x_1+k_2\mathbf x_2+\cdots+k_n\mathbf x_n\}
Span(x1,x2,⋯,xn)={k1x1+k2x2+⋯+knxn}
设 V 1 V_1 V1 和 V 2 V_2 V2 是 n n n 维线性空间 V V V 的两个子空间,由同时属于这两个子空间中的向量构成的子集合,叫做 V 1 V_1 V1 与 V 2 V_2 V2 的交,记作 V 1 ⋂ V 2 V_1 \bigcap V_2 V1⋂V2.
设 V 1 V_1 V1 和 V 2 V_2 V2 是 n n n 维线性空间 V V V 的两个子空间,且 x ∈ V 1 \mathbf x\in V_1 x∈V1, y ∈ V 2 \mathbf y \in V_2 y∈V2,由所有 x + y \mathbf x+\mathbf y x+y 这样的向量构成的集合,叫做 V 1 V_1 V1 与 V 2 V_2 V2 的和或者和空间,记作 V 1 + V 2 V_1 + V_2 V1+V2.
基的扩充定理:设 V 1 V_1 V1 是数域 P P P 上 n n n 维线性空间 V V V 的一个 m m m 维子空间, α 1 , α 2 , ⋯ , α m \bm{\alpha}_1,\bm{\alpha}_2,\cdots,\bm{\alpha}_m α1,α2,⋯,αm 是 V 1 V_1 V1 的一组基,那么它们必定可扩充为整个空间上的基。
维数公式:设
V
1
V_1
V1 和
V
2
V_2
V2 是数域
P
P
P 上线性空间
V
V
V 的一个两个子空间,则
dim
V
1
+
dim
V
2
=
dim
(
V
1
+
V
2
)
+
dim
(
V
1
⋂
V
2
)
\dim V_1+\dim V_2 = \dim(V_1+V_2)+\dim(V_1 \bigcap V_2)
dimV1+dimV2=dim(V1+V2)+dim(V1⋂V2)
如果
V
1
+
V
2
V_1+V_2
V1+V2 中的任一向量只能惟一地表示为子空间
V
1
V_1
V1 的一个向量与子空间
V
2
V_2
V2 的一个向量的和,则称
V
1
+
V
2
V_1+V_2
V1+V2 为直和,记为
V
1
⨁
V
2
V_1\bigoplus V_2
V1⨁V2 或
V
1
+
V
2
V_1+V_2
V1+V2.
V
1
+
V
2
V_1+V_2
V1+V2 为直和的充要条件是
V
1
⋂
V
2
=
0
V_1\bigcap V_2 ={\mathbf 0}
V1⋂V2=0
或
dim
(
V
1
+
V
2
)
=
dim
V
1
+
dim
V
2
\dim(V_1+V_2)=\dim V_1+\dim V_2
dim(V1+V2)=dimV1+dimV2
设
V
1
V_1
V1 是
n
n
n 维线性空间
V
V
V 的一个子空间,则一定存在
V
V
V 的一个子空间
V
2
V_2
V2,使
V
=
V
1
⨁
V
2
V=V_1\bigoplus V_2
V=V1⨁V2
表明线性空间可作直和分解,且不是惟一的。
1.2 线性算子及其矩阵
线性空间上的线性算子
设 M M M 与 M ′ M' M′ 为两个集合,对于每个 x ∈ M \mathbf x \in M x∈M,如果根据某种法则 A \mathscr A A,在 M ′ M' M′ 中有确定的 x ′ \mathbf x' x′ 与之对应,那么称 A \mathscr A A 为由 M M M 到 M ′ M' M′ 的一个映射,或称算子。记为 $\mathscr A :M\to M’ $,或 A ( x ) = x ′ \mathscr A(\mathbf x)=\mathbf x' A(x)=x′.
设
V
V
V 与
V
’
V’
V’ 为数域
P
P
P 上的两个线性空间,
A
\mathscr A
A 是由
V
V
V 到
V
’
V’
V’ 一个算子,且对于
V
V
V 的任何两个向量
x
1
,
x
2
∈
V
\mathbf x_1,\mathbf x_2 \in V
x1,x2∈V 和任何数
λ
∈
P
\lambda \in P
λ∈P,有
A
(
x
1
+
x
2
)
=
A
(
x
1
)
+
A
(
x
2
)
A
(
λ
x
1
)
=
λ
A
(
x
1
)
\begin{aligned} & \mathscr A (\mathbf x_1+\mathbf x_2)=\mathscr A(\mathbf x_1)+\mathscr A(\mathbf x_2) \\ &\mathscr A (\lambda\mathbf x_1) = \lambda\mathscr A(\mathbf x_1) \end{aligned}
A(x1+x2)=A(x1)+A(x2)A(λx1)=λA(x1)
这两个条件(可加性与齐次性)也可以写成
A
(
λ
1
x
1
+
λ
2
x
2
)
=
λ
1
A
(
x
1
)
+
λ
2
A
(
x
2
)
\mathscr A (\lambda_1\mathbf x_1+\lambda_2\mathbf x_2)=\lambda_1\mathscr A(\mathbf x_1)+\lambda_2\mathscr A(\mathbf x_2)
A(λ1x1+λ2x2)=λ1A(x1)+λ2A(x2)
则称
A
\mathscr A
A 是由
V
V
V 到
V
′
V'
V′ 的线性算子(或线性映射).
同构算子与线性空间同构
设 $\mathscr A $ 是由 V V V 到 V ′ V' V′ 的线性算子,且是“一对一”的,即满足
- A ( V ) = V ′ \mathscr A(V)=V' A(V)=V′;
- 若 x 1 , x 2 ∈ V \mathbf x_1,\mathbf x_2\in V x1,x2∈V,当 x 1 ≠ x 2 \mathbf x_1\neq \mathbf x_2 x1=x2 时,有 A ( x 1 ) ≠ A ( x 2 ) \mathscr A(\mathbf x_1) \neq \mathscr A(\mathbf x_2) A(x1)=A(x2);换言之,由 A ( x 1 ) = A ( x 2 ) \mathscr A(\mathbf x_1) = \mathscr A(\mathbf x_2) A(x1)=A(x2),就有 x 1 = x 2 \mathbf x_1= \mathbf x_2 x1=x2 (可逆映射);
那么称 A \mathscr A A 为 V V V 与 V ′ V' V′ 间的一个同构算子。
若 V V V 与 V ′ V' V′ 存在同构算子,则称 V V V 与 V ′ V' V′ 是同构的线性空间,简称 V V V 与 V ′ V' V′ 同构。
数域 P P P 上的两个有限维线性空间同构的充要条件是:两空间的维数相等。
线性算子的矩阵表示
线性空间中抽象的向量可以在基下用具体的坐标来表示。下面建立抽象的线性算子和具体的矩阵之间的关系。
设
A
\mathscr A
A 与
B
\mathscr B
B 是由
V
n
V^n
Vn 到
V
m
V^m
Vm 的两个线性算子,如果对于任何
x
∈
V
n
\mathbf x\in V^n
x∈Vn 恒有
B
(
x
)
=
A
(
x
)
∈
V
m
\mathscr B (\mathbf x)=\mathscr A(\mathbf x) \in V^m
B(x)=A(x)∈Vm
则说线性算子
B
\mathscr B
B 与
A
\mathscr A
A 相等。
设 e 1 , e 2 , ⋯ , e n \mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n e1,e2,⋯,en 是 n n n 维线性空间 V n V^n Vn 的一组基, A \mathscr A A 是由 V n V^n Vn 到 m m m 维线性空间 V m V^m Vm 的线性算子,则 A ( e 1 ) , A ( e 2 ) , ⋯ , A ( e n ) ∈ V m \mathscr A(\mathbf e_1),\mathscr A(\mathbf e_2),\cdots,\mathscr A(\mathbf e_n)\in V^m A(e1),A(e2),⋯,A(en)∈Vm 叫做 V n V^n Vn 在算子 A \mathscr A A 下的基像。
定理:由 V n V^n Vn 到 V m V^m Vm 的线性算子 A \mathscr A A 由基像 A ( e 1 ) , A ( e 2 ) , ⋯ , A ( e n ) \mathscr A(\mathbf e_1),\mathscr A(\mathbf e_2),\cdots,\mathscr A(\mathbf e_n) A(e1),A(e2),⋯,A(en) 惟一确定。
因此要建立线性算子与具体矩阵之间的联系,只需要考察它的一组基像的坐标即可。
设
A
\mathscr A
A 是由
n
n
n 维线性空间
V
n
V^n
Vn 到
m
m
m 维线性空间
V
m
V^m
Vm 的一个线性算子,取
e
1
,
e
2
,
⋯
,
e
n
\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n
e1,e2,⋯,en 作为 $V^n $ 的基,
e
1
′
,
e
2
′
,
⋯
,
e
n
′
\mathbf e'_1,\mathbf e'_2,\cdots,\mathbf e'_n
e1′,e2′,⋯,en′ 作为
V
m
V^m
Vm 的基。由于线性算子
A
\mathscr A
A 由基像惟一确定,且基像属于
V
m
V^m
Vm,故可令
{
A
(
e
1
)
=
a
11
e
1
′
+
a
21
e
2
′
+
⋯
+
a
m
1
e
m
′
A
(
e
2
)
=
a
12
e
1
′
+
a
22
e
2
′
+
⋯
+
a
m
2
e
m
′
A
(
e
n
)
=
a
1
n
e
1
′
+
a
2
n
e
2
′
+
⋯
+
a
m
n
e
m
′
\begin{cases} \mathscr A(\mathbf e_1)=a_{11}\mathbf e'_1+a_{21}\mathbf e'_2+\cdots+a_{m1}\mathbf e'_m \\ \mathscr A(\mathbf e_2)=a_{12}\mathbf e'_1+a_{22}\mathbf e'_2+\cdots+a_{m2}\mathbf e'_m \\ \\ \mathscr A(\mathbf e_n)=a_{1n}\mathbf e'_1+a_{2n}\mathbf e'_2+\cdots+a_{mn}\mathbf e'_m \end{cases}
⎩⎪⎪⎪⎨⎪⎪⎪⎧A(e1)=a11e1′+a21e2′+⋯+am1em′A(e2)=a12e1′+a22e2′+⋯+am2em′A(en)=a1ne1′+a2ne2′+⋯+amnem′
或写成
A
(
e
1
,
e
2
,
⋯
,
e
n
)
=
(
A
(
e
1
)
,
A
(
e
2
)
,
⋯
,
A
(
e
n
)
)
=
(
∑
j
=
1
m
a
j
1
e
j
′
,
∑
j
=
1
m
a
j
2
e
j
′
,
⋯
,
∑
j
=
1
m
a
j
n
e
j
′
)
=
(
e
1
′
,
e
2
′
,
⋯
,
e
n
′
)
(
a
11
a
12
⋯
a
1
n
a
21
a
22
⋯
a
2
n
⋮
⋮
⋮
a
m
1
a
m
2
⋯
a
m
n
)
\begin{aligned} \mathscr A(\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n) & =\left( \mathscr A(\mathbf e_1),\mathscr A(\mathbf e_2),\cdots,\mathscr A(\mathbf e_n) \right) \\ & = \left( \sum^{m}_{j=1}a_{j1}\mathbf e'_j,\sum^{m}_{j=1}a_{j2}\mathbf e'_j,\cdots,\sum^{m}_{j=1}a_{jn}\mathbf e'_j \right) \\ & = (\mathbf e'_1,\mathbf e'_2,\cdots,\mathbf e'_n) \left( \begin{array}{ccc} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn}\\ \end{array} \right) \end{aligned}
A(e1,e2,⋯,en)=(A(e1),A(e2),⋯,A(en))=(j=1∑maj1ej′,j=1∑maj2ej′,⋯,j=1∑majnej′)=(e1′,e2′,⋯,en′)⎝⎜⎜⎜⎛a11a21⋮am1a12a22⋮am2⋯⋯⋯a1na2n⋮amn⎠⎟⎟⎟⎞
令
A
=
(
a
11
a
12
⋯
a
1
n
a
21
a
22
⋯
a
2
n
⋮
⋮
⋮
a
m
1
a
m
2
⋯
a
m
n
)
\mathbf A =\left( \begin{array}{ccc} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn}\\ \end{array} \right)
A=⎝⎜⎜⎜⎛a11a21⋮am1a12a22⋮am2⋯⋯⋯a1na2n⋮amn⎠⎟⎟⎟⎞
矩阵
A
\mathbf A
A 称为线性算子
A
\mathscr A
A 在基偶
{
e
1
,
e
2
,
⋯
,
e
n
}
\{\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n\}
{e1,e2,⋯,en} 与
{
e
1
′
,
e
2
′
,
⋯
,
e
n
′
}
\{ \mathbf e'_1,\mathbf e'_2,\cdots,\mathbf e'_n \}
{e1′,e2′,⋯,en′} 下的矩阵表示.
定理:若
e
1
,
e
2
,
⋯
,
e
n
\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n
e1,e2,⋯,en 是
n
n
n 维线性空间的
V
n
V^n
Vn 的一组基,而
y
1
,
y
2
,
⋯
,
y
n
\mathbf y_1,\mathbf y_2,\cdots,\mathbf y_n
y1,y2,⋯,yn 是
m
m
m 维线性空间
V
m
V^m
Vm 中任意
n
n
n 个向量,则存在惟一一个线性算子
A
\mathscr A
A ,把
e
1
,
e
2
,
⋯
,
e
n
\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n
e1,e2,⋯,en 分别映射为
y
1
,
y
2
,
⋯
,
y
n
\mathbf y_1,\mathbf y_2,\cdots,\mathbf y_n
y1,y2,⋯,yn ,即
y
i
=
A
(
e
i
)
,
i
=
1
,
2
,
⋯
,
n
.
\mathbf y_i=\mathscr A(\mathbf e_i), \text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }i=1,2,\cdots,n.
yi=A(ei), i=1,2,⋯,n.
设 x 1 , x 2 , ⋯ , x n \mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n x1,x2,⋯,xn 是线性空间 V V V 中的一组向量,如果这一组向量系中存在 r r r 个线性无关的向量 x i 1 , x i 2 , ⋯ , x i r \mathbf x_{i_1},\mathbf x_{i_2},\cdots,\mathbf x_{i_r} xi1,xi2,⋯,xir,且 x 1 , x 2 , ⋯ , x n \mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n x1,x2,⋯,xn 中任一向量都可以由向量系 x i 1 , x i 2 , ⋯ , x i r \mathbf x_{i_1},\mathbf x_{i_2},\cdots,\mathbf x_{i_r} xi1,xi2,⋯,xir 惟一地线性表示,则称向量组 x i 1 , x i 2 , ⋯ , x i r \mathbf x_{i_1},\mathbf x_{i_2},\cdots,\mathbf x_{i_r} xi1,xi2,⋯,xir 是 x 1 , x 2 , ⋯ , x n \mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n x1,x2,⋯,xn 的极大线性无关组,称 r r r 为向量系 x 1 , x 2 , ⋯ , x n \mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n x1,x2,⋯,xn 的秩(rank).
超平面
设 S S S 是线性空间 V V V 的一个子空间, x 0 \bm x_0 x0 是一个固定的向量,集合 H = { x ∣ x = x 0 + y , y ∈ S } H=\{ \bm x|\bm x=\bm x_0+\bm y,\bm y\in S \} H={x∣x=x0+y,y∈S},这时集合 H H H 称为子空间 S S S 按向量 x 0 \bm x_0 x0 移动得到的超平面。
线性算子的运算
设 V 1 , V 2 , V 3 V_1,V_2,V_3 V1,V2,V3 是数域 P P P 上的线性空间,把 V 1 V_1 V1 到 V 2 V_2 V2 的所有线性算子组成的集合记为 D ( V 1 , V 2 ) \mathscr D(V_1,V_2) D(V1,V2), D ( V 2 , V 1 ) \mathscr D(V_2,V_1) D(V2,V1), D ( V 1 , V 3 ) \mathscr D(V_1,V_3) D(V1,V3) 类似。
设
A
,
B
∈
(
V
1
,
V
2
)
\mathscr A,\mathscr B \in (V_1,V_2)
A,B∈(V1,V2),如果有
(
A
+
B
)
(
x
)
=
A
(
x
)
+
B
(
x
)
,
∀
x
∈
V
1
(\mathscr A+\mathscr B)(\bm x)=\mathscr A (\bm x) +\mathscr B(\bm x), \text{ }\text{ } \forall \bm x\in V_1
(A+B)(x)=A(x)+B(x), ∀x∈V1
则称
A
+
B
\mathscr A+\mathscr B
A+B 为
A
\mathscr A
A 与
B
\mathscr B
B 的和;
设
A
∈
(
V
1
,
V
2
)
\mathscr A\in(V_1,V_2)
A∈(V1,V2),
B
∈
(
V
2
,
V
3
)
\mathscr B\in (V_2,V_3)
B∈(V2,V3),如果有
(
B
A
)
(
x
)
=
B
(
A
(
x
)
)
,
∀
x
∈
V
1
(\mathscr B\mathscr A)(\bm x)=\mathscr B(\mathscr A(\bm x)), \text{ }\text{ } \forall \bm x\in V_1
(BA)(x)=B(A(x)), ∀x∈V1
则称
B
A
\mathscr B \mathscr A
BA 为
A
\mathscr A
A 与
B
\mathscr B
B 的乘积。
它们均为线性算子。
线性算子的运算与矩阵的运算一一对应,即
- 当 A ↔ A , B ↔ B \mathscr A \leftrightarrow \bm A,\mathscr B \leftrightarrow \bm B A↔A,B↔B 时,有 A + B ↔ A + B \mathscr A+\mathscr B \leftrightarrow \bm A+\bm B A+B↔A+B;
- 当 A ↔ A , B ↔ B \mathscr A \leftrightarrow \bm A,\mathscr B \leftrightarrow \bm B A↔A,B↔B 时,有 B A ↔ B A \mathscr B\mathscr A \leftrightarrow \bm B\bm A BA↔BA;
- 当 A ↔ A , ∀ k ∈ P \mathscr A \leftrightarrow \bm A,\forall k\in P A↔A,∀k∈P 时,有 k A ↔ k A k\mathscr A \leftrightarrow k\bm A kA↔kA;
从而我们可以对线性算子的研究转化为对矩阵的研究。
设
V
n
V_n
Vn 到
V
m
V_m
Vm 的线性算子
A
\mathscr A
A 在基偶
e
1
,
e
2
,
⋯
,
e
n
\bm e_1,\bm e_2,\cdots,\bm e_n
e1,e2,⋯,en 与
e
1
′
,
e
2
′
,
⋯
,
e
m
′
\bm e'_1,\bm e'_2,\cdots,\bm e'_m
e1′,e2′,⋯,em′ 下的矩阵为
A
\bm A
A,向量
x
∈
V
n
\bm x \in V_n
x∈Vn 在基
e
1
,
e
2
,
⋯
,
e
n
\bm e_1,\bm e_2,\cdots,\bm e_n
e1,e2,⋯,en 下的坐标是
(
x
1
,
x
2
,
⋯
,
x
n
)
(x_1,x_2,\cdots,x_n)
(x1,x2,⋯,xn),则
A
(
x
)
\mathscr A(\bm x)
A(x) 在基
e
1
′
,
e
2
′
,
⋯
,
e
m
′
\bm e'_1,\bm e'_2,\cdots,\bm e'_m
e1′,e2′,⋯,em′ 下的坐标
(
y
1
,
y
2
,
⋯
,
y
m
)
(y_1,y_2,\cdots,y_m)
(y1,y2,⋯,ym),可按公式
(
y
1
y
2
⋮
y
m
)
=
A
(
x
1
x
2
⋮
x
n
)
\left( \begin{array}{ccc} y_1 \\ y_2 \\ \vdots \\y_m \end{array} \right) =\bm A \left( \begin{array}{ccc} x_1 \\ x_2 \\ \vdots \\x_n \end{array} \right)
⎝⎜⎜⎜⎛y1y2⋮ym⎠⎟⎟⎟⎞=A⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞
线性变换与方阵
由 V V V 到 V V V 的线性算子 A \mathscr A A 叫做 V V V 上的线性变换。
相似矩阵的几何解释
同一向量在不同基下的坐标往往不同,同一线性变换在不同基下的矩阵也往往不同,下面考察同一线性变换在不同基下的矩阵之间的关系。
定理:设线性空间
V
n
V_n
Vn 上的线性变换
A
\mathscr A
A 对于基
e
1
,
e
2
,
⋯
,
e
n
\bm e_1,\bm e_2,\cdots,\bm e_n
e1,e2,⋯,en 下的矩阵为
A
\bm A
A,而对于另一组基
e
1
′
,
e
2
′
,
⋯
,
e
m
′
\bm e'_1,\bm e'_2,\cdots,\bm e'_m
e1′,e2′,⋯,em′ 下的矩阵为
B
\bm B
B,且由基
e
1
,
e
2
,
⋯
,
e
n
\bm e_1,\bm e_2,\cdots,\bm e_n
e1,e2,⋯,en 到基
e
1
′
,
e
2
′
,
⋯
,
e
m
′
\bm e'_1,\bm e'_2,\cdots,\bm e'_m
e1′,e2′,⋯,em′ 的过渡矩阵为
C
\bm C
C,则有
B
=
C
−
1
A
C
.
\bm B=\bm C^{-1}\bm A \bm C.
B=C−1AC.
如果 A \bm A A 与 B \bm B B 是数域 P P P 上的两个 n n n 阶矩阵,且可找到 P P P 上的 n n n 阶非奇异矩阵 C \bm C C ,使得 B = C − 1 A C \bm B=\bm C^{-1}\bm A\bm C B=C−1AC,则称 A \bm A A 与 B \bm B B 相似,记为 A ∼ B \bm A\sim \bm B A∼B.
相似的几何解释:线性变换在不同基下的矩阵是相似的。
如果
A
\bm A
A 与
B
\bm B
B 都是
m
×
n
m\times n
m×n 阶矩阵,如果存在非奇异的
m
m
m 阶方阵
D
\bm D
D 和
n
n
n 阶方阵
C
\bm C
C,使
B
=
D
A
C
\bm B=\bm D\bm A\bm C
B=DAC 成立,则称
A
\bm A
A 与
B
\bm B
B 相抵,记为
A
≃
B
\bm A\simeq \bm B
A≃B.
相抵的集合解释:在线性空间 V n V_n Vn 和 V m V_m Vm 中,同一个线性算子在不同基偶下的所对应的矩阵 A \bm A A 与 B \bm B B 之间的关系。
设
A
\bm A
A 与
B
\bm B
B 是两个
n
n
n 阶方阵,如果存在非奇异的
n
n
n 阶方阵
C
\bm C
C,使得
B
=
C
T
A
C
\bm B = \bm C^{\text T}\bm A\bm C
B=CTAC
则称矩阵
A
\bm A
A 与
B
\bm B
B 是相合的。
第2讲 内积空间与等积变换
2.1 内积空间
内积空间与欧几里得空间
设 V V V 是实数域 R \R R 上的线性空间,对于 V V V 上的任意两个向量 x , y \bm x,\bm y x,y,存在一实数与之对应,记作 ( x , y ) (\bm x,\bm y) (x,y),且满足以下条件:
- ( x , y ) = ( y , x ) (\bm x,\bm y)=(\bm y, \bm x) (x,y)=(y,x);
- ( x + y , z ) = ( x . z ) + ( y , z ) (\bm x+ \bm y,\bm z)=(\bm x.\bm z)+(\bm y,\bm z) (x+y,z)=(x.z)+(y,z);
- ( k x , y ) = k ( x , y ) (k\bm x,\bm y)=k(\bm x, \bm y) (kx,y)=k(x,y), ∀ k ∈ R \forall k \in \R ∀k∈R;
- ( x , x ) ≥ 0 (\bm x,\bm x) \geq 0 (x,x)≥0,当且仅当 x = 0 \bm x=\bm 0 x=0, ( x , x ) = 0 (\bm x,\bm x)=0 (x,x)=0;
则称
该实数
(
x
,
y
)
(\bm x,\bm y)
(x,y) 是向量
x
\bm x
x 与
y
\bm y
y 的内积。
如此定义了内积的实线性空间
V
V
V 叫做欧几里得空间。
非负实数 ( x , x ) \sqrt{(\bm x,\bm x)} (x,x) 叫做向量 x \bm x x 的长度或模,记为 ∣ x ∣ |\bm x| ∣x∣.当 x ≠ 0 \bm x \neq \bm 0 x=0时,总有 x ∣ x ∣ \frac{\bm x}{|\bm x|} ∣x∣x 是一个单位向量,这个过程称为把 x \bm x x 单位化或者规范化。
柯西-施瓦茨不等式:
∣
(
x
,
y
)
∣
x
∣
∣
y
∣
∣
≤
1
,
\left | \frac{(\bm x,\bm y)} {|\bm x||\bm y|} \right| \le1,
∣∣∣∣∣x∣∣y∣(x,y)∣∣∣∣≤1,
即
∣
(
x
,
y
)
∣
≤
∣
x
∣
∣
y
∣
|(\bm x,\bm y)| \le|\bm x||\bm y|
∣(x,y)∣≤∣x∣∣y∣
当且仅当
x
,
y
\bm x,\bm y
x,y 线性相关时,等号成立。
非零向量
x
\bm x
x 与
y
\bm y
y 的夹角
<
x
,
y
>
<\bm x,\bm y>
<x,y> 规定为
<
x
,
y
>
=
arccos
(
x
,
y
)
∣
x
∣
∣
y
∣
,
0
≤
<
x
,
y
>
≤
π
<\bm x,\bm y>=\arccos \frac{(\bm x,\bm y)}{|\bm x||\bm y|},\qquad 0\le<\bm x,\bm y>\le\pi
<x,y>=arccos∣x∣∣y∣(x,y),0≤<x,y>≤π
将 ∣ x − y ∣ |\bm x-\bm y| ∣x−y∣称为向量 x \bm x x 与 y \bm y y 之间的距离。
度量矩阵
内积
(
x
,
y
)
(\bm x,\bm y)
(x,y) 可以表示成:
(
x
,
y
)
=
X
T
A
Y
(\bm x,\bm y)=\bm X^{\text T} \bm A \bm Y
(x,y)=XTAY
A
=
(
(
e
1
,
e
1
)
(
e
1
,
e
2
)
⋯
(
e
1
,
e
n
)
(
e
2
,
e
1
)
(
e
2
,
e
2
)
⋯
(
e
2
,
e
n
)
⋮
⋮
⋮
(
e
n
,
e
1
)
(
e
n
,
e
2
)
⋯
(
e
n
,
e
n
)
)
\bm A = \left( \begin{array}{ccc} (\bm e_1,\bm e_1) & (\bm e_1,\bm e_2) & \cdots & (\bm e_1, \bm e_n) \\ (\bm e_2,\bm e_1) & (\bm e_2,\bm e_2) & \cdots & (\bm e_2, \bm e_n) \\ \vdots & \vdots & & \vdots \\ (\bm e_n,\bm e_1) & (\bm e_n,\bm e_2) & \cdots & (\bm e_n, \bm e_n) \\ \end{array} \right)
A=⎝⎜⎜⎜⎛(e1,e1)(e2,e1)⋮(en,e1)(e1,e2)(e2,e2)⋮(en,e2)⋯⋯⋯(e1,en)(e2,en)⋮(en,en)⎠⎟⎟⎟⎞
叫做基
e
1
,
e
2
,
⋯
,
e
n
\bm e_1,\bm e_2,\cdots,\bm e_n
e1,e2,⋯,en 的度量矩阵。
度量矩阵是
- 对称正定矩阵
- 两组不同基的度量矩阵不同,但是相合
正交性
设 x , y \bm x,\bm y x,y 为欧式空间的两个向量,如果 ( x , y ) = 0 (\bm x,\bm y)=0 (x,y)=0,则说 x \bm x x 与 y \bm y y 正交,记为 x ⊥ y \bm x \bot \bm y x⊥y.
欧式空间中一组非零向量,如果它们两两正交,则称其为一个正交向量组。
若
x
1
,
x
2
,
⋯
,
x
n
\bm x_1,\bm x_2,\cdots,\bm x_n
x1,x2,⋯,xn 是正交向量组,则有
∣
x
1
+
x
2
+
⋯
+
x
n
∣
2
=
∣
x
1
∣
2
+
∣
x
2
∣
2
+
⋯
+
∣
x
n
∣
2
|\bm x_1+\bm x_2+\cdots+\bm x_n|^2=|\bm x_1|^2+|\bm x_2|^2+\cdots+|\bm x_n|^2
∣x1+x2+⋯+xn∣2=∣x1∣2+∣x2∣2+⋯+∣xn∣2
定理:如果 x 1 , x 2 , ⋯ , x n \bm x_1,\bm x_2,\cdots,\bm x_n x1,x2,⋯,xn 是一组两两正交的非零向量,则它们必是线性无关的。
施密特正交化
标准正交基
在欧式空间
V
n
V_n
Vn 中,由
n
n
n 个两两正交的非零向量组成的向量系构成的基底称为
V
n
V_n
Vn 的一组正交基;若该向量系的向量的长度都为1,则称其为标准正交基。
定理:设
x
1
,
x
2
,
⋯
,
x
n
\bm x_1,\bm x_2,\cdots,\bm x_n
x1,x2,⋯,xn 是
V
n
V_n
Vn 的一组标准正交基底,则对
∀
x
∈
V
n
\forall \bm x\in V_n
∀x∈Vn,都有
x
=
(
x
,
x
1
)
x
1
+
(
x
,
x
2
)
x
2
+
⋯
+
(
x
,
x
n
)
x
n
\bm x=(\bm x,\bm x_1)\bm x_1+(\bm x,\bm x_2)\bm x_2+\cdots+(\bm x,\bm x_n)\bm x_n
x=(x,x1)x1+(x,x2)x2+⋯+(x,xn)xn
酉空间介绍
设 V V V 是复数域 C \Complex C 上的线性空间,对于 V V V 中任意两个向量 x , y \bm x,\bm y x,y ,如能给定某种规则,使 x , y \bm x,\bm y x,y 对应着一个复数 ( x , y ) (\bm x,\bm y) (x,y) ,它能满足以下条件:
- ( x , y ) = ( y , x ) ‾ (\bm x,\bm y)=\overline{(\bm y,\bm x)} (x,y)=(y,x);
- ( x + y , z ) = ( x , z ) + ( y , z ) (\bm x+\bm y,\bm z)=(\bm x,\bm z)+(\bm y,\bm z) (x+y,z)=(x,z)+(y,z);
- ( k x , y ) = k ( x , y ) (k\bm x,\bm y)=k(\bm x,\bm y) (kx,y)=k(x,y);
- ( x , x ) ≥ 0 (\bm x,\bm x) \geq 0 (x,x)≥0,当且仅当 x = 0 \bm x=\bm 0 x=0 时, ( x , x ) = 0 (\bm x,\bm x)=0 (x,x)=0
酉空间的性质:
- ( x , k y ) = k ‾ ( x , y ) (\bm x,k\bm y)=\overline{k}(\bm x,\bm y) (x,ky)=k(x,y);
- ( x , 0 ) = ( 0 , x ) = 0 (\bm x,\bm 0)=(\bm 0,\bm x)=\bm 0 (x,0)=(0,x)=0;
线性泛函与伴随变换
V V V 是定义在数域 P P P 上的线性空间,则 V → P V \rightarrow P V→P 的线性映射 φ \varphi φ 称为 V V V 上的线性泛函。
定理:设
φ
\varphi
φ 是
V
V
V 上的线性泛函,
∀
u
∈
V
\forall \bm u\in V
∀u∈V,则存在惟一的一个向量
v
\bm v
v 使得
φ
(
u
)
=
(
u
,
v
)
,
u
∈
V
\varphi(\bm u)=(\bm u,\bm v), \qquad \bm u \in V
φ(u)=(u,v),u∈V
设
T
T
T 是从酉空间
C
n
→
C
n
\Complex^n \rightarrow\Complex^n
Cn→Cn 内的一个线性变换,
T
∗
T^*
T∗ 也是从
C
n
→
C
n
\Complex^n \rightarrow\Complex^n
Cn→Cn 内的一个线性变换,如果对任意两个向量
x
,
y
∈
C
n
\bm x,\bm y \in \Complex^n
x,y∈Cn 恒有
(
T
x
,
y
)
=
(
x
,
T
∗
y
)
(T\bm x,\bm y)=(\bm x,T^*\bm y)
(Tx,y)=(x,T∗y)
就称
T
∗
T^*
T∗ 为
T
T
T 的伴随变换。
定理:对于任一个线性变换 T ( C n → C n ) T(\Complex^n \rightarrow \Complex^n) T(Cn→Cn),恒存在惟一的伴随变换 T ∗ T^* T∗.
在同一标准正交基下, T T T 的伴随变换 T ∗ T^* T∗ 的矩阵表示就是 T T T 的矩阵表示的共轭转置。
设
T
T
T 为从
C
n
→
C
n
\Complex^n\rightarrow \Complex^n
Cn→Cn 的线性变换,
T
∗
T^*
T∗ 是它的伴随矩阵,若
T
=
T
∗
T=T^*
T=T∗
则称
T
T
T 为自伴变换。
2.2 等积变换及其矩阵
正交变换与正交矩阵
设
V
V
V 是一个欧式空间,
A
\mathscr A
A 是
V
V
V 上的线性变换,如果对于任何向量
x
,
y
∈
V
\bm x,\bm y\in V
x,y∈V,变换
A
\mathscr A
A 恒能使下式成立:
(
A
(
x
)
,
A
(
y
)
)
=
(
x
,
y
)
(\mathscr A(\bm x),\mathscr A(\bm y))=(\bm x,\bm y)
(A(x),A(y))=(x,y)
则说
A
\mathscr A
A 是
V
V
V 上的正交变换。
正交变换的充要条件:
- A \mathscr A A 使向量长度保持不变,即 ( A ( x ) , A ( x ) ) = ( x , x ) (\mathscr A(\bm x),\mathscr A(\bm x))=(\bm x,\bm x) (A(x),A(x))=(x,x);
- 任一组标准正交基经 A \mathscr A A 变换后的像仍是一组标准正交基;
- A \mathscr A A 在任一组标准正交基下的矩阵 A \bm A A 满足 A T A = A A T = I 或 A − 1 = A T \bm A^{\text T}\bm A=\bm A\bm A^{\text T}=\bm I\quad或\quad \bm A^{-1}=\bm A^{\text T} ATA=AAT=I或A−1=AT即 A \bm A A 是正交矩阵
定理:在欧式空间中,正交变换在标准正交基下的矩阵是正交矩阵;反之亦然。
正交矩阵的常用性质:
- 是非奇异的,且 det A = 1 或 − 1 \text{det}\bm A=1或-1 detA=1或−1;
- 正交矩阵的逆矩阵仍是正交矩阵;
- 正交矩阵的乘积仍为正交矩阵;
- 实数域上方阵 A \bm A A 是正交矩阵的充要条件是: A \bm A A 的行(列)向量组为标准正交向量组。
定理:设 ε 1 , ε 2 , ⋯ , ε n \bm \varepsilon_1,\bm \varepsilon_2,\cdots,\bm \varepsilon_n ε1,ε2,⋯,εn 及 ε 1 ′ , ε 2 ′ , ⋯ , ε n ′ \bm \varepsilon'_1,\bm \varepsilon'_2,\cdots,\bm \varepsilon'_n ε1′,ε2′,⋯,εn′ 是欧式空间 V n V^n Vn 的两组标准正交基,它们之间的过渡矩阵 A \bm A A 是正交矩阵。
两类常用的正交变换及其矩阵
R
i
j
\bm R_{ij}
Rij 叫做初等旋转矩阵;它所确定的变换叫做初等旋转变换。
有如下性质
- det R i j = 1 \text{det} \bm R_{ij}=1 detRij=1;
- R i j \bm R_{ij} Rij 对应的初等旋转变换是正交变换, R i j \bm R_{ij} Rij 是正交矩阵。
在欧式空间
R
n
\R^n
Rn 中,设有线性变换将向量
ξ
\bm \xi
ξ 映射成与单位向量正交的
n
−
1
n-1
n−1 维子空间对称的像
η
\bm \eta
η,且有
η
=
(
I
−
2
w
w
T
)
ξ
=
H
ξ
\bm \eta=(\bm I-2\bm w\bm w^{\text T})\bm \xi=\bm H\bm \xi
η=(I−2wwT)ξ=Hξ
则称这种线性变换为镜像变换,或 Householder 变换。
其中矩阵
H
\bm H
H 称为初等反射矩阵。
初等反射矩阵的性质:
- H \bm H H 是对称的正交矩阵;
- det H = det ( I − 2 w w T ) = − 1 \det \bm H=\det(\bm I -2\bm w\bm w^{\text T})=-1 detH=det(I−2wwT)=−1.
酉变换与酉矩阵
设
V
V
V 是一个酉空间,
A
\mathscr A
A 是
V
V
V 上的一个线性变换,如果对于任何
x
.
y
∈
V
\bm x.\bm y\in V
x.y∈V 恒有
(
A
(
x
)
,
A
(
y
)
)
=
(
x
,
y
)
(\mathscr A(\bm x),\mathscr A(\bm y))=(\bm x,\bm y)
(A(x),A(y))=(x,y)
则说
A
\mathscr A
A 是一个酉变换。
2.3 内积空间中的正交子空间
设
V
1
V_1
V1 与
V
2
V_2
V2 是内积空间
V
n
V^n
Vn 的两个子空间,如果对
∀
x
1
∈
V
1
,
x
2
∈
V
2
\forall \bm x_1\in V_1,\bm x_2\in V_2
∀x1∈V1,x2∈V2,都有
(
x
1
,
x
2
)
=
0
(\bm x_1,\bm x_2)=0
(x1,x2)=0
则称子空间
V
1
,
V
2
V_1,V_2
V1,V2 正交,记为
V
1
⊥
V
2
V_1\bot V_2
V1⊥V2.
设 V 1 V_1 V1 是内积空间 V V V 的一个子空间, V V V 中所有与 V 1 V_1 V1 正交的向量所组成的集合,记为 V 1 ⊥ V^{\bot}_1 V1⊥,即 V 1 ⊥ = { α ∈ V ∣ α ⊥ V 1 } V^{\bot}_1=\{\alpha\in V| \alpha\bot V_1\} V1⊥={α∈V∣α⊥V1},称 V 1 ⊥ V^{\bot}_1 V1⊥ 为 V 1 V_1 V1 的正交补。
定理:
设
V
1
V_1
V1 是内积空间
V
n
V^n
Vn 的任一子空间,则存在惟一的子空间
V
1
⊥
⊂
V
n
V_1^{\bot} \subset V^n
V1⊥⊂Vn 使得
V
1
⊕
V
1
⊥
=
V
n
V_1\oplus V_1^{\bot}=V^n
V1⊕V1⊥=Vn
第3讲 赋范线性空间与矩阵范数
3.1 向量的范数
如果 V V V 是数域 P P P 上的线性空间,且对于 V V V 的任一向量 x \bm x x,对应着一个函数 ∣ ∣ x ∣ ∣ ||\bm x|| ∣∣x∣∣,它满足以下3个条件:
- 非负性: ∣ ∣ x ∣ ∣ ≥ 0 ||\bm x|| \ge0 ∣∣x∣∣≥0;当且仅当 x = 0 \bm x=\bm 0 x=0 时,等号成立;
- 齐次性: ∣ ∣ k x ∣ ∣ = ∣ k ∣ ∣ ∣ x ∣ ∣ , k ∈ P ||k\bm x||=|k|\:||\bm x||,\qquad k\in P ∣∣kx∣∣=∣k∣∣∣x∣∣,k∈P;
- 三角不等式: ∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ , x . y ∈ V ||\bm x+\bm y|| \leq||\bm x||+||\bm y||, \qquad \bm x.\bm y \in V ∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣,x.y∈V;
则称 ∣ ∣ x ∣ ∣ ||\bm x|| ∣∣x∣∣ 为 V V V 上向量 x \bm x x 的范数。
对任意向量 x = ( x 1 , x 2 , ⋯ , x n ) T ∈ R n , 1 ≤ p < + ∞ \bm x=(x_1,x_2,\cdots,x_n)^{\text T}\in \R^n,\: 1\le p<+\infty x=(x1,x2,⋯,xn)T∈Rn,1≤p<+∞,由 ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p ||\bm x||_p=\left(\displaystyle\sum_{i=1}^n |x_i|^p \right)^{\frac{1}{p}} ∣∣x∣∣p=(i=1∑n∣xi∣p)p1 定义的 ∣ ∣ x ∣ ∣ p ||\bm x||_p ∣∣x∣∣p 是 R n \R^n Rn 上的向量范数。
定义了向量范数 ∣ ∣ ⋅ ∣ ∣ ||\bm \cdot|| ∣∣⋅∣∣ 的线性空间 V n V^n Vn,称为赋范线性空间。
3.2 向量范数的性质
设
∣
∣
x
∣
∣
a
,
∣
∣
x
∣
∣
b
||\bm x||_a,||\bm x||_b
∣∣x∣∣a,∣∣x∣∣b 是
n
n
n 维线性空间
V
n
V^n
Vn 上定义的任意两种范数,若存在两个与
x
\bm x
x 无关的正常数
c
1
,
c
2
c_1,c_2
c1,c2,使得
c
1
∣
∣
x
∣
∣
b
≤
∣
∣
x
∣
∣
a
≤
c
2
∣
∣
x
∣
∣
b
c_1\:||\bm x||_b\le||\bm x||_a \le c_2 \:||\bm x||_b
c1∣∣x∣∣b≤∣∣x∣∣a≤c2∣∣x∣∣b
则称
∣
∣
x
∣
∣
a
||\bm x||_a
∣∣x∣∣a 与
∣
∣
x
∣
∣
b
||\bm x||_b
∣∣x∣∣b 是等价的。
定理:有限维线性空间中任意两种范数都是等价的。
3.3 矩阵范数的定义与性质
设 A ∈ C m × n \bm A \in \Complex^{m\times n} A∈Cm×n,按某一法则在 C m × n \Complex^{m\times n} Cm×n 上规定 A \bm A A 的一个实值函数,记作 ∣ ∣ A ∣ ∣ ||\bm A|| ∣∣A∣∣,它满足以下4个条件:
- 非负性: ∣ ∣ x ∣ ∣ ≥ 0 ||\bm x|| \ge0 ∣∣x∣∣≥0;当且仅当 A = 0 \bm A=\bm 0 A=0 时,等号成立;
- 齐次性: ∣ ∣ k A ∣ ∣ = ∣ k ∣ ∣ ∣ A ∣ ∣ , ∀ k ∈ C ||k\bm A||=|k|\:||\bm A||,\qquad \forall k\in \Complex ∣∣kA∣∣=∣k∣∣∣A∣∣,∀k∈C;
- 三角不等式: ∣ ∣ A + B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ + ∣ ∣ B ∣ ∣ , ∀ A , B ∈ C m × n ||\bm A+\bm B|| \leq||\bm A||+||\bm B||, \qquad \forall \bm A,\bm B \in \Complex^{m\times n} ∣∣A+B∣∣≤∣∣A∣∣+∣∣B∣∣,∀A,B∈Cm×n;
- 次乘性:当矩阵乘积 A B \bm A \bm B AB 有意义时,若有 ∣ ∣ A B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ ||\bm A\bm B|| \le||\bm A||\;||\bm B|| ∣∣AB∣∣≤∣∣A∣∣∣∣B∣∣.
则称 ∣ ∣ A ∣ ∣ ||\bm A|| ∣∣A∣∣ 为矩阵范数。
3.4 算子范数
设
A
∈
C
m
×
n
,
x
∈
C
n
\bm A\in\Complex^{m\times n},\bm x\in\Complex^n
A∈Cm×n,x∈Cn,如果取定的向量范数
∣
∣
x
∣
∣
||\bm x||
∣∣x∣∣ 和矩阵范数
∣
∣
A
∣
∣
||\bm A||
∣∣A∣∣ 满足
∣
∣
A
x
∣
∣
≤
∣
∣
A
∣
∣
⋅
∣
∣
x
∣
∣
||\bm A\bm x||\le||\bm A|| \;\bm\cdot\;||\bm x||
∣∣Ax∣∣≤∣∣A∣∣⋅∣∣x∣∣
则称矩阵范数
∣
∣
A
∣
∣
||\bm A||
∣∣A∣∣ 与向量范数
∣
∣
x
∣
∣
||\bm x||
∣∣x∣∣ 是相容的。
设
A
∈
C
m
×
n
,
x
=
(
x
1
,
x
2
.
⋯
,
x
n
)
T
∈
C
n
\bm A \in \Complex^{m\times n},\bm x=(x_1,x_2.\cdots,x_n)^{\text T} \in \Complex^n
A∈Cm×n,x=(x1,x2.⋯,xn)T∈Cn,且在
C
n
\Complex^n
Cn 中已规定了向量的范数(即
C
n
\Complex^n
Cn 是
n
n
n 维赋范线性空间)。定义
∣
∣
A
∣
∣
=
sup
∣
∣
x
∣
∣
≠
0
∣
∣
A
x
∣
∣
∣
∣
x
∣
∣
=
max
∣
∣
x
∣
∣
=
1
∣
∣
A
x
∣
∣
||\bm A||=\underset{||\bm x||\neq0}{\sup} \frac{||\bm A\bm x||}{||\bm x||}=\underset{||\bm x||=1}{\max}||\bm A \bm x||
∣∣A∣∣=∣∣x∣∣=0sup∣∣x∣∣∣∣Ax∣∣=∣∣x∣∣=1max∣∣Ax∣∣
则上式定义了一个矩阵范数,称为由向量范数诱导矩阵范数或算子范数。
常用的矩阵范数
设 A = ( a i j ) ∈ C m × n , x = ( x 1 , x 2 . ⋯ , x n ) T ∈ C n \bm A=(a_{ij}) \in \Complex^{m\times n},\bm x=(x_1,x_2.\cdots,x_n)^{\text T} \in \Complex^n A=(aij)∈Cm×n,x=(x1,x2.⋯,xn)T∈Cn,则从属于向量 x \bm x x 的3种范数 ∣ ∣ x ∣ ∣ 1 , ∣ ∣ x ∣ ∣ 2 , ∣ ∣ x ∣ ∣ ∞ ||\bm x||_1,||\bm x||_2,||\bm x||_{\infty} ∣∣x∣∣1,∣∣x∣∣2,∣∣x∣∣∞ 的算子范数依次是
- ∣ ∣ A ∣ ∣ 1 = max j ∑ i = 1 m ∣ a i j ∣ ||\bm A||_1=\underset{j}{\max}\displaystyle\sum_{i=1}^m|a_{ij}| ∣∣A∣∣1=jmaxi=1∑m∣aij∣(称为列范数);
- ∣ ∣ A ∣ ∣ 2 = λ max ( A H A ) ||\bm A||_2=\sqrt{\lambda_{\max}(\bm A^{\text H}\bm A)} ∣∣A∣∣2=λmax(AHA)(称为谱范数),其中 λ max ( A H A ) \lambda_{\max}(\bm A^{\text H}\bm A) λmax(AHA) 是矩阵 A H A \bm A^{\text H}\bm A AHA 特征值绝对值的最大值;
- ∣ ∣ A ∣ ∣ ∞ = max i ∑ j = 1 n ∣ a i j ∣ ||\bm A||_\infty=\underset{i}{\max}\displaystyle\sum_{j=1}^n|a_{ij}| ∣∣A∣∣∞=imaxj=1∑n∣aij∣(称为行范数)
3.5 谱范数的性质和谱半径
设
A
∈
C
n
×
n
\bm A\in\Complex^{n\times n}
A∈Cn×n ,
λ
1
,
λ
2
,
⋯
,
λ
n
\lambda_1,\lambda_2,\cdots,\lambda_n
λ1,λ2,⋯,λn 为
A
\bm A
A 的特征值,我们称
ρ
(
A
)
=
max
i
∣
λ
i
∣
\rho(\bm A)=\underset{i}{\max}|\lambda_i|
ρ(A)=imax∣λi∣
为
A
\bm A
A 的谱半径。
特征值上界定理:对任意矩阵
A
∈
C
n
×
n
\bm A \in \Complex^{n\times n}
A∈Cn×n,总有
ρ
(
A
)
≤
∣
∣
A
∣
∣
\rho(\bm A) \le||\bm A||
ρ(A)≤∣∣A∣∣
即
A
\bm A
A 的谱半径不会超过
A
\bm A
A 的任何一种范数。
定理:
如果
A
∈
C
n
×
n
\bm A\in \Complex^{n\times n}
A∈Cn×n,且
A
\bm A
A 为正规矩阵,则
ρ
(
A
)
=
∣
∣
A
∣
∣
2
\rho(\bm A)=||\bm A||_2
ρ(A)=∣∣A∣∣2
定理:
设
A
∈
C
n
×
n
\bm A\in \Complex^{n\times n}
A∈Cn×n,若
∣
∣
A
∣
∣
<
1
||\bm A||<1
∣∣A∣∣<1,则
I
−
A
\bm I-\bm A
I−A 为非奇异矩阵,且
∣
∣
(
I
−
A
)
−
1
∣
∣
≤
1
1
−
∣
∣
A
∣
∣
||(\bm I-\bm A)^{-1}||\le\frac{1}{1-||\bm A||}
∣∣(I−A)−1∣∣≤1−∣∣A∣∣1
3.6 摄动分析与矩阵的条件数
矩阵的条件数
设 A \bm A A 是非奇异矩阵,称数 cond ( A ) = ∣ ∣ A − 1 ∣ ∣ p ∣ ∣ A ∣ ∣ p \text{cond} (\bm A)=||\bm A^{-1}||_p\;||\bm A||_p cond(A)=∣∣A−1∣∣p∣∣A∣∣p ( p = 1 , 2 p=1,2 p=1,2 或 ∞ \infty ∞) 为矩阵 A \bm A A 的条件数。
常用的条件数:
- cond ( A ) ∞ = ∣ ∣ A − 1 ∣ ∣ ∞ ∣ ∣ A ∣ ∣ ∞ \text{cond} (\bm A)_{\infty}=||\bm A^{-1}||_\infty\;||\bm A||_\infty cond(A)∞=∣∣A−1∣∣∞∣∣A∣∣∞;
- cond ( A ) 2 = ∣ ∣ A − 1 ∣ ∣ 2 ∣ ∣ A ∣ ∣ 2 = λ max ( A H A ) λ min ( A H A ) ) \begin{aligned}\text{cond} (\bm A)_2&= ||\bm A^{-1}||_2\;||\bm A||_2 \\&=\sqrt{\frac{\lambda_{\max}(\bm A^{\text H}\bm A)}{\lambda_{\min}(\bm A^{\text H}\bm A))}}\end{aligned} cond(A)2=∣∣A−1∣∣2∣∣A∣∣2=λmin(AHA))λmax(AHA)
当
A
\bm A
A 是实对称矩阵时,
cond
(
A
)
2
=
max
∣
λ
∣
min
∣
λ
∣
\text{cond} (\bm A)_2=\frac{\max|\lambda|}{\min|\lambda|}
cond(A)2=min∣λ∣max∣λ∣
第4讲 矩阵的特征值与奇异值分解
4.1 矩阵的特征值
tr
A
=
∑
i
=
1
n
λ
i
=
∑
i
=
1
n
a
i
i
\text{tr}\bm A=\displaystyle\sum_{i=1}^n\lambda_i=\sum_{i=1}^n a_{ii}
trA=i=1∑nλi=i=1∑naii
det
(
A
)
=
∏
i
=
1
n
λ
i
\det(\bm A)=\displaystyle\prod_{i=1}^n \lambda_i
det(A)=i=1∏nλi
设
λ
1
,
λ
2
,
⋯
,
λ
r
\lambda_1,\lambda_2,\cdots,\lambda_r
λ1,λ2,⋯,λr 是
A
\bm A
A 的相异特征值,则与其相应的特征向量
x
1
,
x
2
,
⋯
,
x
r
\bm x_1,\bm x_2,\cdots,\bm x_r
x1,x2,⋯,xr 必线性无关。
设 A ∈ R n × n \bm A\in \R^{n\times n} A∈Rn×n, A T \bm A^{\text T} AT 为 A \bm A A 的转置矩阵,则:
- A \bm A A 与 A T \bm A^{\text T} AT 有相同的特征值;
- 设 a , b a,b a,b 是 A \bm A A 的特征值,且 a ≠ b a\ne b a=b, x \bm x x 是 A \bm A A 的对应于特征 a a a 的特征向量, y \bm y y 是 A T \bm A^{\text T} AT 的对应于特征 b b b 的特征向量,则 x , y \bm x,\bm y x,y 正交。
设矩阵 A \bm A A 有 n n n 个不同的特征值 λ 1 , λ 2 , ⋯ , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,⋯,λn,且 A \bm A A 对应于特征值的特征向量分别为 x 1 , x 2 , ⋯ , x n \bm x_1,\bm x_2,\cdots,\bm x_n x1,x2,⋯,xn, A T \bm A^{\text T} AT 的特征向量为 y 1 , y 2 , ⋯ , y n \bm y_1,\bm y_2,\cdots,\bm y_n y1,y2,⋯,yn,则
- ( x i , y i ) ≠ 0 (\bm x_i,\bm y_i)\ne0 (xi,yi)=0;
- 任何 x ∈ R n \bm x\in \R^n x∈Rn 可以表示成 x = k 1 x 1 + k 2 x 2 + ⋯ + k n x n \bm x=k_1\bm x_1+k_2\bm x_2+\cdots+k_n\bm x_n x=k1x1+k2x2+⋯+knxn,其中 k i = ( y i , x ) / ( y i , x i ) k_i= (\bm y_i,\bm x) /(\bm y_i,\bm x_i) ki=(yi,x)/(yi,xi)
设
A
∈
R
m
×
n
,
B
∈
R
n
×
m
,
A
B
\bm A\in \R^{m\times n},\bm B\in \R^{n\times m},\bm A\bm B
A∈Rm×n,B∈Rn×m,AB 与
B
A
\bm B\bm A
BA 的特征多项式分别是
f
A
B
(
λ
)
,
f
B
A
(
λ
)
f_{\bm A \bm B}(\lambda),f_{\bm B \bm A}(\lambda)
fAB(λ),fBA(λ),则有
f
A
B
(
λ
)
=
(
−
λ
)
m
−
n
f
B
A
(
λ
)
f_{\bm A \bm B}(\lambda)=(-\lambda)^{m-n}f_{\bm B \bm A}(\lambda)
fAB(λ)=(−λ)m−nfBA(λ)
方阵
A
B
\bm A\bm B
AB 与
B
A
\bm B\bm A
BA 有相同的非零特征值,不同的是零特征值的重数。
设 A , B \bm A,\bm B A,B 都是 n n n 阶方阵,若存在可逆矩阵 P \bm P P,使得 P − 1 A P = B \bm P^{-1}\bm A\bm P=\bm B P−1AP=B,则称 A \bm A A 与 B \bm B B 相似,记为 A ∼ B \bm A \sim\bm B A∼B,称这种变换为相似变换。
相似矩阵有以下性质:
- 若 A ∼ B \bm A\sim\bm B A∼B,则它们有相同的特征值;
- 若 A ∼ B \bm A\sim\bm B A∼B,则 tr A = tr B , ∣ A ∣ = ∣ B ∣ \text{tr}\bm A=\text{tr}\bm B,|\bm A|=|\bm B| trA=trB,∣A∣=∣B∣;
- 若 A \bm A A 与一个对角矩阵 D = [ λ 1 ⋱ λ n ] \bm D=\left[\begin{array}{ccc}\lambda_1 \\ &\ddots \\&&\lambda_n \end{array} \right] D=⎣⎡λ1⋱λn⎦⎤ 相似,则称其为可对角矩阵,且 λ 1 , λ 2 , ⋯ , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,⋯,λn 是 A \bm A A 的 n n n 个特征值;
- n n n 阶矩阵为可对角矩阵的充要条件是有 n n n 个线性无关的特征向量。
4.2 实对称矩阵的特征值问题
当 A \bm A A 为实对称矩阵,它的特征值有一些特殊的性质:
- 实对称矩阵的所有特征值都是实数,所以对每一个特征值都存在实的特征向量;
- A \bm A A 的相异特征值对应的特征向量正交;
- 一定存在 n n n 阶正交矩阵 P P P 和对角矩阵 D = diag ( λ 1 , λ 2 , ⋯ , λ n ) \bm D=\text{diag}(\lambda_1,\lambda_2,\cdots,\lambda_n) D=diag(λ1,λ2,⋯,λn),使得 P T A P = D \bm P^{\text T}\bm A\bm P=\bm D PTAP=D.
设
P
=
[
p
1
,
p
2
,
⋯
,
p
n
]
\bm P=[\bm p_1,\bm p_2,\cdots,\bm p_n]
P=[p1,p2,⋯,pn],由
P
T
A
P
=
D
\bm P^{\text T}\bm A\bm P=\bm D
PTAP=D 得
A
=
P
D
P
T
⟹
A
=
λ
1
p
1
p
1
T
+
λ
2
p
2
p
2
T
+
⋯
+
λ
n
p
n
p
n
T
\begin{aligned} & \bm A=\bm P\bm D\bm P^{\text T} \\ \implies & \bm A=\lambda_1\bm p_1\bm p_1^{\text T}+\lambda_2\bm p_2\bm p_2^{\text T}+\cdots+\lambda_n\bm p_n\bm p_n^{\text T} \end{aligned}
⟹A=PDPTA=λ1p1p1T+λ2p2p2T+⋯+λnpnpnT
这称为
实
对
称
矩
阵
的
谱
分
解
式
\textcolor{#FE6F5E}{实对称矩阵的谱分解式}
实对称矩阵的谱分解式.
矩阵的特征值常称为矩阵的
谱
点
\textcolor{#FE6F5E}{谱点}
谱点.
Rayleigh商
设
A
∈
R
n
×
n
\bm A\in \R^{n\times n}
A∈Rn×n 是实对称矩阵,
x
∈
R
n
\bm x\in \R^n
x∈Rn,我们称
R
(
x
)
=
x
T
A
x
x
T
x
R(\bm x)=\frac{\bm x^{\text T}\bm A\bm x}{\bm x^{\text T}\bm x}
R(x)=xTxxTAx
称为实对称矩阵
A
\bm A
A 的 Rayleigh商。
max
R
(
x
)
=
A
的
最
大
特
征
值
,
min
R
(
x
)
=
A
的
最
小
特
征
值
\max R(\bm x)=\bm A 的最大特征值,\min R(\bm x)=\bm A 的最小特征值
maxR(x)=A的最大特征值,minR(x)=A的最小特征值
矩阵的奇异值分解
就是任意一个 m × n m\times n m×n 矩阵将 n n n 维空间的单位球面映射成 m m m 维空间的一个超球面。
正交对角分解定理:
设
A
∈
R
n
×
n
\bm A\in \R^{n\times n}
A∈Rn×n 为非奇异矩阵,则存在正交矩阵
P
\bm P
P 和
Q
\bm Q
Q,使得
P
T
A
Q
=
diag
(
α
1
,
α
2
,
⋯
,
α
n
)
α
i
>
0
\bm P^{\text T}\bm A \bm Q=\text{diag}(\alpha_1,\alpha_2,\cdots,\alpha_n)\qquad \alpha_i>0
PTAQ=diag(α1,α2,⋯,αn)αi>0
引理:
- 设 A ∈ R r m × n ( r > 0 ) \bm A\in \R^{m\times n}_r(r>0) A∈Rrm×n(r>0),则 A T A \bm A^{\text T}\bm A ATA 是实对称正定矩阵,特征值是非负数;
- rank ( A T A ) = rank ( A ) \text{rank}(\bm A^{\text T}\bm A)=\text{rank}(\bm A) rank(ATA)=rank(A);
- 设 A ∈ R m × n \bm A\in\R^{m\times n} A∈Rm×n,则 A = 0 \bm A=\bm 0 A=0 的充要条件是 A T A = 0 \bm A^{\text T}\bm A=\bm 0 ATA=0.
设
A
\bm A
A 是秩为
r
r
r 的
m
×
n
m\times n
m×n 实矩阵,则
A
T
A
\bm A^{\text T}\bm A
ATA 有
r
r
r 个大于零的特征值为
λ
1
≥
λ
2
≥
⋯
≥
λ
r
>
λ
r
+
1
=
⋯
=
λ
n
=
0
\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_r>\lambda_{r+1}=\cdots=\lambda_n=0
λ1≥λ2≥⋯≥λr>λr+1=⋯=λn=0
则称
σ
i
=
λ
i
(
i
=
1
,
2
,
⋯
,
r
)
\sigma_i=\sqrt{\lambda_i}\;(i=1,2,\cdots,r)
σi=λi(i=1,2,⋯,r) 为
A
\bm A
A 的奇异值。
实矩阵的奇异值分解:
令
A
∈
R
m
×
n
\bm A\in \R^{m\times n}
A∈Rm×n,则存在正交矩阵
U
∈
R
m
×
m
\bm U\in\R^{m\times m}
U∈Rm×m 和
V
∈
R
n
×
n
\bm V\in\R^{n\times n}
V∈Rn×n 使得
A
=
U
Σ
V
T
\bm A=\bm U\Sigma\bm V^{\text T}
A=UΣVT
其中
Σ
=
[
Σ
1
0
0
0
]
m
×
n
\Sigma=\left[ \begin{array}{ccc} \Sigma_1 & \bm 0 \\ \bm 0 & \bm 0 \end{array} \right]_{m\times n}
Σ=[Σ1000]m×n,且
Σ
1
=
diag
(
σ
1
,
σ
2
,
⋯
,
σ
r
)
\Sigma_1=\text{diag}(\sigma_1,\sigma_2,\cdots,\sigma_r)
Σ1=diag(σ1,σ2,⋯,σr),且
σ
1
≥
σ
2
≥
⋯
≥
σ
r
>
0
,
r
=
rank
(
A
)
\sigma_1 \ge\sigma_2\ge\cdots\ge\sigma_r>0, \qquad r=\text{rank}(\bm A)
σ1≥σ2≥⋯≥σr>0,r=rank(A)
数值
σ
i
\sigma_i
σi 称为
A
\bm A
A 的奇异值。
第5讲 投影分析
投影定理:
设
H
\bm H
H 是向量空间,而
M
\bm M
M 是
H
\bm H
H 内的
n
n
n 维子空间。若对于
H
\bm H
H 中的向量
x
\bm x
x,在子空间
M
\bm M
M 内有一向量
x
^
\hat{\bm x}
x^,使得
x
−
x
^
\bm x-\hat{\bm x}
x−x^ 与
M
\bm M
M 中的每一个向量
y
\bm y
y 都满足正交条件,即
(
x
−
x
^
,
y
)
=
0
,
∀
y
∈
M
(\bm x-\hat{\bm x},\bm y)=0,\qquad \forall \bm y\in \bm M
(x−x^,y)=0,∀y∈M
则不等式
∣
∣
x
−
x
^
∣
∣
2
≤
∣
∣
x
−
y
∣
∣
2
||\bm x-\hat{\bm x}||_2\le||\bm x-\bm y||_2
∣∣x−x^∣∣2≤∣∣x−y∣∣2 对于所有向量
y
∈
M
\bm y\in \bm M
y∈M 成立,并且等号仅当
y
=
x
^
\bm y=\hat{\bm x}
y=x^ 时成立。
即 x ^ ∈ M \hat{\bm x}\in M x^∈M 是 x ∈ H \bm x\in \bm H x∈H 在 M \bm M M 中的投影的充要条件是 x − x ^ \bm x-\hat{\bm x} x−x^ 与 M \bm M M 中所有向量都正交,并且向量 x \bm x x 到有限维子空间 M \bm M M 的投影 x ^ \hat{\bm x} x^ 是惟一的。
投影算子的意义和性质
设
R
n
=
W
⊕
V
\R^n=\bm W\oplus\bm V
Rn=W⊕V 为空间
R
n
\R^n
Rn 的一种分解,则任意向量
x
∈
R
n
\bm x \in\R^n
x∈Rn 都可以惟一地表示成
x
=
w
+
v
,
w
∈
W
,
v
∈
V
\bm x=\bm w+\bm v,\qquad \bm w\in \bm W,\bm v\in\bm V
x=w+v,w∈W,v∈V
今规定算子
A
\mathscr A
A
A
(
x
)
=
w
\mathscr A(\bm x)=\bm w
A(x)=w
我们把从
R
n
\R^n
Rn 到子空间
W
\bm W
W 的这种映射称为
R
n
\R^n
Rn 沿子空间
V
\bm V
V 到子空间
W
\bm W
W 上的投影,并称
A
\mathscr A
A 为投影算子。