阅读翻译Mathematics for Machine Learning之2.7 Linear Mappings
关于:
- 首次发表日期:2024-07-23
- Mathematics for Machine Learning官方链接: https://mml-book.com
- ChatGPT和KIMI机翻,人工润色
- 非数学专业,如有错误,请不吝指出
2.7 线性映射
在接下来的内容中,我们将研究保持向量空间结构的映射,这将使我们能够定义坐标的概念。在本章的开头,我们提到向量是可以相加和乘以标量的对象,且结果仍然是向量。当应用映射时,我们希望保持这一性质:考虑两个实向量空间 V , W V, W V,W。如果映射 Φ : V → W \Phi: V \rightarrow W Φ:V→W 满足以下条件,则它保持向量空间的结构:
Φ ( x + y ) = Φ ( x ) + Φ ( y ) Φ ( λ x ) = λ Φ ( x ) \begin{align*} \Phi(\boldsymbol{x}+\boldsymbol{y}) & =\Phi(\boldsymbol{x})+\Phi(\boldsymbol{y}) \tag{2.85} \\ \Phi(\lambda \boldsymbol{x}) & =\lambda \Phi(\boldsymbol{x}) \tag{2.86} \end{align*} Φ(x+y)Φ(λx)=Φ(x)+Φ(y)=λΦ(x)(2.85)(2.86)
对于所有 x , y ∈ V \boldsymbol{x}, \boldsymbol{y} \in V x,y∈V 和 λ ∈ R \lambda \in \mathbb{R} λ∈R 成立。我们可以用以下定义来总结这一点:
定义 2.15(线性映射)。对于向量空间 V , W V, W V,W,一个映射 Φ : V → W \Phi: V \rightarrow W Φ:V→W 被称为线性映射(或向量空间同态/线性变换),如果
∀ x , y ∈ V ∀ λ , ψ ∈ R : Φ ( λ x + ψ y ) = λ Φ ( x ) + ψ Φ ( y ) (2.87) \forall \boldsymbol{x}, \boldsymbol{y} \in V \ \forall \lambda, \psi \in \mathbb{R}: \Phi(\lambda \boldsymbol{x}+\psi \boldsymbol{y})=\lambda \Phi(\boldsymbol{x})+\psi \Phi(\boldsymbol{y}) \tag{2.87} ∀x,y∈V ∀λ,ψ∈R:Φ(λx+ψy)=λΦ(x)+ψΦ(y)(2.87)
结果表明,我们可以将线性映射表示为矩阵(见第 2.7.1 节)。回想一下,我们也可以将一组向量作为矩阵的列。在使用矩阵时,我们必须记住矩阵代表的是什么:是线性映射还是向量的集合。我们将在第 4 章中详细讨论线性映射。在继续之前,我们将简要介绍一些特殊的映射。
定义 2.16(单射、满射、双射)。考虑一个映射 Φ \Phi Φ : V → W \mathcal{V} \rightarrow \mathcal{W} V→W,其中 V \mathcal{V} V 和 W \mathcal{W} W 可以是任意集合。那么 Φ \Phi Φ 被称为:
- 单射(Injective),如果 ∀ x , y ∈ V \forall \boldsymbol{x}, \boldsymbol{y} \in \mathcal{V} ∀x,y∈V,有 Φ ( x ) = Φ ( y ) ⟹ x = y \Phi(\boldsymbol{x})=\Phi(\boldsymbol{y}) \Longrightarrow \boldsymbol{x}=\boldsymbol{y} Φ(x)=Φ(y)⟹x=y。
- 满射(Surjective),如果 Φ ( V ) = W \Phi(\mathcal{V})=\mathcal{W} Φ(V)=W。
- 双射(Bijective),如果它既是单射又是满射。
如果 Φ \Phi Φ 是满射,那么 W \mathcal{W} W 中的每个元素都可以通过 Φ \Phi Φ 从 V \mathcal{V} V 中“到达”。双射 Φ \Phi Φ 可以“被逆”,即存在一个映射 Ψ \Psi Ψ : W → V \mathcal{W} \rightarrow \mathcal{V} W→V 使得 Ψ ∘ Φ ( x ) = x \Psi \circ \Phi(\boldsymbol{x})=\boldsymbol{x} Ψ∘Φ(x)=x。这个映射 Ψ \Psi Ψ 被称为 Φ \Phi Φ 的逆映射,通常记作 Φ − 1 \Phi^{-1} Φ−1。
有了这些定义,我们介绍以下向量空间 V V V 和 W W W 之间的线性映射的特例:
- 同构(Isomorphism): Φ : V → W \Phi: V \rightarrow W Φ:V→W 线性且双射
- 自同态(Endomorphism): Φ : V → V \Phi: V \rightarrow V Φ:V→V 线性
- 自同构(Automorphism): Φ : V → V \Phi: V \rightarrow V Φ:V→V 线性且双射
- 我们定义 id V : V → V , x ↦ x \operatorname{id}_V: V \rightarrow V, \boldsymbol{x} \mapsto \boldsymbol{x} idV:V→V,x↦x 为 V V V 中的恒等映射或恒等自同构。
**例 2.19(同态(Homomorphism))**
映射 Φ : R 2 → C , Φ ( x ) = x 1 + i x 2 \Phi: \mathbb{R}^2 \rightarrow \mathbb{C}, \Phi(\boldsymbol{x})=x_1+i x_2 Φ:R2→C,Φ(x)=x1+ix2 是一个同态:
Φ ( [ x 1 x 2 ] + [ y 1 y 2 ] ) = ( x 1 + y 1 ) + i ( x 2 + y 2 ) = x 1 + i x 2 + y 1 + i y 2 = Φ ( [ x 1 x 2 ] ) + Φ ( [ y 1 y 2 ] ) Φ ( λ [ x 1 x 2 ] ) = λ x 1 + λ i x 2 = λ ( x 1 + i x 2 ) = λ Φ ( [ x 1 x 2 ] ) . (2.88) \begin{aligned} \Phi\left(\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]+\left[\begin{array}{l} y_1 \\ y_2 \end{array}\right]\right) & =\left(x_1+y_1\right)+i\left(x_2+y_2\right)=x_1+i x_2+y_1+i y_2 \\ & =\Phi\left(\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]\right)+\Phi\left(\left[\begin{array}{l} y_1 \\ y_2 \end{array}\right]\right) \\ \Phi\left(\lambda\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]\right) & =\lambda x_1+\lambda i x_2=\lambda\left(x_1+i x_2\right)=\lambda \Phi\left(\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]\right) . \end{aligned} \tag{2.88} Φ([x1x2]+[y1y2])Φ(λ[x1x2])=(x1+y1)+i(x2+y2)=x1+ix2+y1+iy2=Φ([x1x2])+Φ([y1y2])=λx1+λix2=λ(x1+ix2)=λΦ([x1x2]).(2.88)
这也说明了为什么复数可以表示为 R 2 \mathbb{R}^2 R2 中的元组:存在一个双射线性映射,可以将 R 2 \mathbb{R}^2 R2 中元组的逐元素加法转换为对应加法的复数集合。请注意,我们这里只展示了线性性,而不是双射性。
定理 2.17(Axler (2015) 的定理 3.59)。有限维向量空间 V V V 和 W W W 是同构的,当且仅当 dim ( V ) = dim ( W ) \operatorname{dim}(V)=\operatorname{dim}(W) dim(V)=dim(W)。
定理 2.17 表明,存在一个线性、双射的映射在两个相同维度的向量空间之间。直观上,这意味着相同维度的向量空间在某种程度上是相同的,因为它们可以互相转换而不会遭受任何损失。
定理 2.17 还为我们提供了将 R m × n \mathbb{R}^{m \times n} Rm×n( m × n m \times n m×n 矩阵的向量空间)和 R m n \mathbb{R}^{mn} Rmn(长度为 m n mn mn 的向量的向量空间)视为相同的理由,因为它们的维度都是 m n mn mn,并且存在一个线性、双射的映射将一个转换为另一个。
备注。考虑向量空间 V , W , X V, W, X V,W,X。那么:
- 对于线性映射 Φ : V → W \Phi: V \rightarrow W Φ:V→W 和 Ψ : W → X \Psi: W \rightarrow X Ψ:W→X,映射 Ψ ∘ Φ : V → X \Psi \circ \Phi: V \rightarrow X Ψ∘Φ:V→X 也是线性的。
- 如果 Φ : V → W \Phi: V \rightarrow W Φ:V→W 是同构(isomorphism),那么 Φ − 1 : W → V \Phi^{-1}: W \rightarrow V Φ−1:W→V 也是同构。
- 如果 Φ : V → W , Ψ : V → W \Phi: V \rightarrow W, \Psi: V \rightarrow W Φ:V→W,Ψ:V→W 是线性的,那么 Φ + Ψ \Phi+\Psi Φ+Ψ 和 λ Φ , λ ∈ R \lambda \Phi, \lambda \in \mathbb{R} λΦ,λ∈R,也是线性的。
2.7.1 线性映射的矩阵表示
任何 n n n 维向量空间都与 R n \mathbb{R}^n Rn 同构(定理 2.17)。我们考虑一个 n n n 维向量空间 V V V 的基 { b 1 , … , b n } \left\{\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right\} { b1,…,bn}。在接下来的内容中,基向量的顺序很重要。因此,我们写作
B = ( b 1 , … , b n ) (2.89) B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right) \tag{2.89} B=(b1,…,bn)(2.89)
并称这个 n n n 元组为 V V V 的有序基。
备注(符号)。我们现在使用的符号有点复杂,因此我们在这里总结一些部分。 B = ( b 1 , … , b n ) B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right) B=(b1,…,bn) 是一个有序基, B = { b 1 , … , b n } \mathcal{B}=\left\{\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right\} B={ b1,…,bn} 是一个(无序)基, B = [ b 1 , … , b n ] \boldsymbol{B}=\left[\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right] B=[b1,…,bn] 是一个矩阵,其列是向量 b 1 , … , b n \boldsymbol{b}_1, \ldots, \boldsymbol{b}_n b1,…,bn。
定义 2.18(坐标)。考虑一个向量空间 V V V 和其有序基 B = ( b 1 , … , b n ) B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right) B=(b1,…,bn)。对于任何 x ∈ V \boldsymbol{x} \in V x∈V,我们可以得到一个唯一的表示(线性组合)
x = α 1 b 1 + … + α n b n \boldsymbol{x}=\alpha_1 \boldsymbol{b}_1+\ldots+\alpha_n \boldsymbol{b}_n x=α1b1+…+αnbn
其中 α 1 , … , α n \alpha_1, \ldots, \alpha_n α1,…,αn 是 x \boldsymbol{x} x 相对于 B B B 的坐标,并且向量
α = [ α 1 ⋮ α n ] ∈ R n \boldsymbol{\alpha}=\left[\begin{array}{c} \alpha_1 \\ \vdots \\ \alpha_n \end{array}\right] \in \mathbb{R}^n α= α1⋮αn ∈Rn
是 x \boldsymbol{x} x 相对于有序基 B B B 的坐标向量/坐标表示。
一个基实际上定义了一个坐标系。我们熟悉的二维笛卡尔坐标系是由标准基向量 e 1 , e 2 \boldsymbol{e}_1, \boldsymbol{e}_2 e1,e2 张成的。在这个坐标系中,向量 x ∈ R 2 \boldsymbol{x} \in \mathbb{R}^2 x∈R2 有一个表示,它告诉我们如何线性组合 e 1 \boldsymbol{e}_1 e1 和 e 2 \boldsymbol{e}_2 e2 来得到 x \boldsymbol{x} x。然而, R 2 \mathbb{R}^2 R2 的任何基都定义了一个有效的坐标系,并且相同的向量 x \boldsymbol{x} x 在基 ( b 1 , b 2 ) \left(\boldsymbol{b}_1, \boldsymbol{b}_2\right) (b1,b2) 中可能有不同的坐标表示。在图 2.8 中,向量 x \boldsymbol{x} x 相对于标准基 ( e 1 , e 2 ) \left(\boldsymbol{e}_1, \boldsymbol{e}_2\right) (e1,e2) 的坐标是 [ 2 , 2 ] ⊤ [2,2]^{\top} [2,2]⊤。然而,相对于基 ( b 1 , b 2 ) \left(\boldsymbol{b}_1, \boldsymbol{b}_2\right) (b1,b2),相同的向量 x \boldsymbol{x} x 表示为 [ 1.09 , 0.72 ] ⊤ [1.09,0.72]^{\top} [1.09,0.72]⊤,即 x = 1.09 b 1 + 0.72 b 2 \boldsymbol{x}=1.09 \boldsymbol{b}_1+0.72 \boldsymbol{b}_2 x=1.09b1+0.72b2。在接下来的部分中,我们将探讨如何获得这种表示。
**例 2.20**
我们来看一个几何向量 x ∈ R 2 \boldsymbol{x} \in \mathbb{R}^2 x∈R2,其相对于 R 2 \mathbb{R}^2 R2 的标准基 ( e 1 , e 2 ) \left(\boldsymbol{e}_1, \boldsymbol{e}_2\right) (e1,e2) 的坐标为 [ 2 , 3 ] ⊤ [2,3]^{\top} [2,3]⊤。这意味着,我们可以写作 x = 2 e 1 + 3 e 2 \boldsymbol{x}=2 \boldsymbol{e}_1+3 \boldsymbol{e}_2 x=2e1+3e2。然而,我们不必选择标准基来表示这个向量。如果我们使用基向量 b 1 = [ 1 , − 1 ] ⊤ \boldsymbol{b}_1=[1,-1]^{\top} b1=[1,−1]⊤ 和 b 2 = [ 1 , 1 ] ⊤ \boldsymbol{b}_2=[1,1]^{\top} b2=[1,1]⊤,我们将得到坐标 1 2 [ − 1 , 5 ] ⊤ \frac{1}{2}[-1,5]^{\top} 21[−1,5]⊤ 来表示相对于 ( b 1 , b 2 ) \left(\boldsymbol{b}_1, \boldsymbol{b}_2\right) (b1,b2) 的相同向量(见图 2.9)。
备注。对于一个 n n n 维向量空间 V V V 和 V V V 的一个有序基 B B B,映射 Φ : R n → V , Φ ( e i ) = b i , i = 1 , … , n \Phi: \mathbb{R}^n \rightarrow V, \Phi\left(\boldsymbol{e}_i\right)=\boldsymbol{b}_i, i=1, \ldots, n Φ:Rn→V,Φ(ei)=