78、线性代数基础全面解析

最新推荐文章于 2025-12-07 15:20:43 发布

time3

最新推荐文章于 2025-12-07 15:20:43 发布

阅读量117

点赞数

CC 4.0 BY-SA版权

分类专栏：概率机器学习入门精要文章标签：线性代数向量空间矩阵运算

本文链接：https://blog.youkuaiyun.com/time3/article/details/151315501

概率机器学习入门精要专栏收录该内容

91 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

线性代数基础全面解析

线性代数作为数学领域的重要分支，在众多学科和实际应用中都有着广泛的应用。本文将深入探讨线性代数中的一些基础概念，包括向量空间、矩阵运算、矩阵的性质以及特殊类型的矩阵等内容。

1. 向量空间

向量空间是线性代数的核心概念之一，它涉及向量的加法、缩放以及线性组合等基本运算。

1.1 向量加法和缩放

在$n$维欧几里得空间中，向量$x \in R^n$可以看作是一个点。向量空间是由这些向量组成的集合，其中的向量可以进行加法和标量乘法运算，以创建新的点。具体来说，对于两个向量$x$和$y$，它们的加法定义为$x + y = (x_1 + y_1, \ldots, x_n + y_n)$；对于标量$c \in R$，向量$x$的标量乘法定义为$cx = (cx_1, \ldots, cx_n)$。

1.2 线性独立性、张成空间和基集

线性独立性 ：一组向量${x_1, x_2, \ldots, x_n}$被称为线性独立的，如果其中任何一个向量都不能表示为其余向量的线性组合。反之，如果一个向量可以表示为其余向量的线性组合，则称该向量是线性相关的。例如，如果$x_n = \sum_{i = 1}^{n - 1} \alpha_i x_i$，则$x_n$依赖于${x_1, \ldots, x_{n - 1}}$；否则，它与${x_1, \ldots, x_{n - 1}}$线性独立。
张成空间 ：一组向量${x_1, x_2, \ldots, x_n}$的张成空间是所有可以表示为这些向量线性组合的向量的集合，即$span({x_1, \ldots, x_n}) \triangleq {v : v = \sum_{i = 1}^{n} \alpha_i x_i, \alpha_i \in R}$。如果${x_1, \ldots, x_n}$是一组$n$个线性独立的向量，且每个$x_i \in R^n$，那么$span({x_1, \ldots, x_n}) = R^n$。
基集：基$B$是一组线性独立且能张成整个空间的向量集合，即$span(B) = R^n$。通常有多个基可供选择，标准基使用坐标向量$e_1 = (1, 0, \ldots, 0)$到$e_n = (0, 0, \ldots, 0, 1)$。

下面通过一个流程图来展示向量空间相关概念的关系：

graph LR
    A[向量空间] --> B[向量加法和缩放]
    A --> C[线性独立性、张成空间和基集]
    C --> D[线性独立性]
    C --> E[张成空间]
    C --> F[基集]

1.3 线性映射和矩阵

线性映射或线性变换是满足$f(v + w) = f(v) + f(w)$和$f(av) = af(v)$的函数$f : V \to W$。一旦选择了$V$的基，线性映射$f$就完全由基向量的像决定。对于$V = R^n$和$W = R^m$，我们可以计算$V$中每个基向量的$f(v_i) \in R^m$，并将这些结果存储在一个$m \times n$矩阵$A$的行中。对于任意$x \in R^n$，可以通过$y = Ax$计算$f(x) \in R^m$。如果函数是可逆的，则可以写成$x = A^{-1}y$。

1.4 矩阵的范围和零空间

范围：矩阵$A \in R^{m \times n}$的范围（也称为列空间）是$A$的列向量的张成空间，即$range(A) \triangleq {v \in R^m : v = Ax, x \in R^n}$。它可以看作是由$A$可以“到达”或“生成”的向量集合，其维数由$A$的秩给出。
零空间 ：矩阵$A \in R^{m \times n}$的零空间是所有与$A$相乘后映射到零向量的向量集合，即$nullspace(A) \triangleq {x \in R^n : Ax = 0}$。$A$的行向量的张成空间是其零空间的补集。

矩阵范围和零空间的关系可以用下面的表格总结：
| 概念 | 定义 |
| ---- | ---- |
| 范围 | $range(A) = {v \in R^m : v = Ax, x \in R^n}$ |
| 零空间 | $nullspace(A) = {x \in R^n : Ax = 0}$ |

1.5 线性投影

向量$y \in R^m$在${x_1, \ldots, x_n}$的张成空间上的投影是向量$v \in span({x_1, \ldots, x_n})$，使得$v$与$y$的欧几里得距离$|v - y| 2$最小。对于一个满秩矩阵$A \in R^{m \times n}$（$m > n$），向量$y$在$A$的范围上的投影定义为$Proj(y; A) = \arg\min {v \in R(A)} |v - y|_2 = A(A^T A)^{-1} A^T y$。

2. 向量和矩阵的范数

范数是衡量向量和矩阵“大小”的一种方式。

2.1 向量范数

向量的范数是一个满足非负性、确定性、绝对值齐次性和三角不等式的函数$f : R^n \to R$。常见的向量范数包括：
- $p$-范数 ：$|x| p = (\sum {i = 1}^{n} |x_i|^p)^{1/p}$，其中$p \geq 1$。
- 2-范数 ：$|x| 2 = \sqrt{\sum {i = 1}^{n} x_i^2}$，也称为欧几里得范数，且$|x| 2^2 = x^T x$。
- 1-范数 ：$|x|_1 = \sum {i = 1}^{n} |x_i|$。
- 最大范数 ：$|x| {\infty} = \max_i |x_i|$。
- 0-范数 ：$|x|_0 = \sum {i = 1}^{n} I(|x_i| > 0)$，它是一个伪范数，用于计算$x$中非零元素的数量。

2.2 矩阵范数

诱导范数 ：对于矩阵$A \in R^{m \times n}$，诱导范数定义为$|A| p = \max {x \neq 0} \frac{|Ax| p}{|x|_p} = \max {|x| = 1} |Ax| p$。通常$p = 2$，此时$|A|_2 = \sqrt{\lambda {max}(A^T A)} = \max_i \sigma_i$，其中$\sigma_i$是第$i$个奇异值。
核范数 ：也称为迹范数，定义为$|A| * = tr(\sqrt{A^T A}) = \sum {i} \sigma_i$。
Schatten $p$-范数 ：$|A| p = (\sum {i} \sigma_i^p(A))^{1/p}$。
Frobenius范数 ：如果将矩阵看作向量，则可以定义矩阵范数为$|A| = |vec(A)|$。当向量范数为2-范数时，对应的矩阵范数是Frobenius范数，即$|A| F = \sqrt{\sum {i = 1}^{m} \sum_{j = 1}^{n} a_{ij}^2} = \sqrt{tr(A^T A)} = |vec(A)|_2$。

以下是常见向量和矩阵范数的总结表格：
| 范数类型 | 向量范数 | 矩阵范数 |
| ---- | ---- | ---- |
| $p$-范数 | $|x| p = (\sum {i = 1}^{n} |x_i|^p)^{1/p}$ | - |
| 2-范数 | $|x| 2 = \sqrt{\sum {i = 1}^{n} x_i^2}$ | $|A| 2 = \sqrt{\lambda {max}(A^T A)}$ |
| 1-范数 | $|x| 1 = \sum {i = 1}^{n} |x_i|$ | - |
| 最大范数 | $|x| {\infty} = \max_i |x_i|$ | - |
| 0-范数 | $|x|_0 = \sum {i = 1}^{n} I(|x_i| > 0)$ | - |
| 核范数 | - | $|A| * = tr(\sqrt{A^T A})$ |
| Schatten $p$-范数 | - | $|A|_p = (\sum {i} \sigma_i^p(A))^{1/p}$ |
| Frobenius范数 | - | $|A| F = \sqrt{\sum {i = 1}^{m} \sum_{j = 1}^{n} a_{ij}^2}$ |

3. 矩阵的性质

矩阵具有许多重要的标量性质，包括迹、行列式、秩和条件数等。

3.1 方阵的迹

方阵$A \in R^{n \times n}$的迹$tr(A)$是矩阵对角元素的和，即$tr(A) \triangleq \sum_{i = 1}^{n} A_{ii}$。迹具有以下性质：
- $tr(A) = tr(A^T)$
- $tr(A + B) = tr(A) + tr(B)$
- $tr(cA) = c tr(A)$
- $tr(AB) = tr(BA)$
- $tr(A) = \sum_{i = 1}^{n} \lambda_i$，其中$\lambda_i$是$A$的特征值。

此外，还有循环置换性质$tr(ABC) = tr(BCA) = tr(CAB)$，可以由此推导出迹技巧$x^T Ax = tr(x^T Ax) = tr(xx^T A)$。在某些情况下，可以使用Hutchinson迹估计器$tr(A) = E[tr(v^T Av)]$来近似计算$tr(A)$，其中$v \sim N(0, I)$。

3.2 方阵的行列式

方阵的行列式$det(A)$或$|A|$是衡量矩阵作为线性变换时对单位体积的改变程度的量。行列式满足以下性质：
- $|A| = |A^T|$
- $|cA| = c^n |A|$
- $|AB| = |A| |B|$
- $|A| = 0$当且仅当$A$是奇异的。
- $|A^{-1}| = 1/|A|$（如果$A$非奇异）
- $|A| = \prod_{i = 1}^{n} \lambda_i$，其中$\lambda_i$是$A$的特征值。
- $\log |A| = tr(\log A)$

3.3 矩阵的秩

矩阵$A$的列秩是其列向量张成空间的维数，行秩是其行向量张成空间的维数。对于任何矩阵$A$，列秩等于行秩，通常简称为矩阵的秩，记为$rank(A)$。矩阵秩的基本性质包括：
- 对于$A \in R^{m \times n}$，$rank(A) \leq \min(m, n)$。如果$rank(A) = \min(m, n)$，则称$A$是满秩的；否则，称$A$是秩亏的。
- 对于$A \in R^{m \times n}$，$rank(A) = rank(A^T) = rank(A^T A) = rank(AA^T)$。
- 对于$A \in R^{m \times n}$和$B \in R^{n \times p}$，$rank(AB) \leq \min(rank(A), rank(B))$。
- 对于$A, B \in R^{m \times n}$，$rank(A + B) \leq rank(A) + rank(B)$。

一个方阵可逆当且仅当它是满秩的。

3.4 条件数

矩阵$A$的条件数是衡量涉及$A$的任何计算的数值稳定性的量，定义为$\kappa(A) \triangleq |A| \cdot |A^{-1}|$。通常假设使用$\ell_2$-范数。条件数$\kappa(A) \geq 1$，当$\kappa(A)$接近1时，称$A$是良态的；当$\kappa(A)$很大时，称$A$是病态的。在$\ell_2$-范数下，条件数等于最大奇异值与最小奇异值的比值$\kappa(A) = \sigma_{max} / \sigma_{min} = \sqrt{\frac{\lambda_{max}}{\lambda_{min}}}$。

矩阵性质相关概念的关系可以用以下流程图表示：

graph LR
    A[矩阵性质] --> B[迹]
    A --> C[行列式]
    A --> D[秩]
    A --> E[条件数]
    B --> F[迹的性质]
    C --> G[行列式的性质]
    D --> H[秩的性质]
    E --> I[条件数的意义]

4. 特殊类型的矩阵

不同类型的矩阵具有各自独特的结构和性质，在实际应用中有着广泛的用途。

4.1 对角矩阵

对角矩阵是所有非对角元素都为0的矩阵，通常表示为$D = diag(d_1, d_2, \ldots, d_n)$。单位矩阵$I \in R^{n \times n}$是对角元素都为1的对角矩阵，满足$AI = A = IA$。可以通过$d = diag(D)$提取矩阵的对角向量，也可以通过$D = diag(d)$将向量转换为对角矩阵。此外，还有块对角矩阵和带对角矩阵。

4.2 三角矩阵

上三角矩阵只有对角线上和上方的元素非零，下三角矩阵只有对角线上和下方的元素非零。三角矩阵的一个有用性质是其对角元素是矩阵的特征值，因此行列式等于对角元素的乘积$det(A) = \prod_{i} A_{ii}$。

4.3 正定矩阵

对于方阵$A \in R^{n \times n}$和向量$x \in R$，$x^T Ax$称为二次型。通常假设二次型中的矩阵是对称的。根据二次型的取值情况，矩阵可以分为以下几类：
- 正定矩阵 ：对称矩阵$A \in S^n$是正定的，当且仅当对于所有非零向量$x \in R^n$，$x^T Ax > 0$，通常表示为$A \succ 0$。
- 半正定矩阵 ：如果可能存在$x^T Ax = 0$，则称矩阵是半正定的。
- 负定矩阵 ：对称矩阵$A \in S^n$是负定的，当且仅当对于所有非零向量$x \in R^n$，$x^T Ax < 0$，表示为$A \prec 0$。
- 不定矩阵 ：如果矩阵既不是半正定也不是负定的，则称为不定矩阵。

正定矩阵的一个充分条件是对角占优，即对于矩阵的每一行，对角元素的绝对值大于该行其他非对角元素绝对值的和。对于$2 \times 2$的实对称矩阵$\begin{pmatrix} a & b \ b & d \end{pmatrix}$，它是正定的当且仅当$a > 0$，$d > 0$且$ad > b^2$。另外，对于任何矩阵$A \in R^{m \times n}$，Gram矩阵$G = A^T A$总是半正定的；如果$m \geq n$且$A$是满秩的，则$G$是正定的。

4.4 正交矩阵

两个向量$x, y \in R^n$正交当且仅当$x^T y = 0$，向量$x \in R^n$归一化当且仅当$|x|_2 = 1$。一组两两正交且归一化的向量称为正交归一向量组。方阵$U \in R^{n \times n}$是正交矩阵当且仅当它的所有列都是正交归一的，即$U^T U = I = UU^T$。正交矩阵的一个例子是旋转矩阵，例如绕$z$轴旋转角度$\alpha$的3D旋转矩阵$R(\alpha) = \begin{pmatrix} \cos(\alpha) & -\sin(\alpha) & 0 \ \sin(\alpha) & \cos(\alpha) & 0 \ 0 & 0 & 1 \end{pmatrix}$。

正交矩阵具有一些良好的性质，例如对向量进行正交矩阵变换不会改变其欧几里得范数$|Ux|_2 = |x|_2$，并且可以保持两个向量之间的夹角。

特殊类型矩阵的分类可以用以下表格总结：
| 矩阵类型 | 定义 | 性质 |
| ---- | ---- | ---- |
| 对角矩阵 | 非对角元素都为0 | $AI = A = IA$等 |
| 三角矩阵 | 上三角或下三角元素非零 | 对角元素是特征值，$det(A) = \prod_{i} A_{ii}$ |
| 正定矩阵 | $x^T Ax > 0$（非零$x$） | 可逆，特征值为正等 |
| 正交矩阵 | $U^T U = I = UU^T$ | 保持向量长度和夹角 |

通过对这些线性代数基础概念的深入理解，我们可以更好地应用线性代数解决各种实际问题，如机器学习、物理学、工程学等领域中的数据分析、模型求解等。在后续的学习和研究中，这些知识将为进一步探索更复杂的理论和方法奠定坚实的基础。

线性代数基础全面解析（续）

5. 线性代数在实际应用中的体现

线性代数的这些基础概念在众多实际领域有着广泛的应用，下面我们将结合具体场景来进一步理解其重要性。

5.1 机器学习中的应用

在机器学习中，矩阵和向量的运算无处不在。例如，在多元线性回归模型$y = X\beta+\epsilon$中，$X$是一个$n\times p$的矩阵，其中$n$是样本数量，$p$是特征数量；$\beta$是一个$p$维向量，表示回归系数；$y$是一个$n$维向量，表示因变量。通过最小化残差平方和$\sum_{i = 1}^{n}(y_i - \sum_{j = 1}^{p}x_{ij}\beta_j)^2=(y - X\beta)^T(y - X\beta)$，可以求解出最优的$\beta$值。这一过程涉及到矩阵的乘法、转置以及求逆等运算。

在主成分分析（PCA）中，我们希望找到数据的主成分，也就是数据方差最大的方向。这需要计算数据矩阵$X$的协方差矩阵$S=\frac{1}{n - 1}X^TX$，然后对协方差矩阵进行特征值分解，得到特征值和特征向量。特征值表示每个主成分的方差大小，特征向量则表示主成分的方向。具体步骤如下：
1. 对数据矩阵$X$进行中心化处理，即$X_{centered}=X-\bar{X}$，其中$\bar{X}$是$X$的每列均值组成的矩阵。
2. 计算协方差矩阵$S=\frac{1}{n - 1}X_{centered}^TX_{centered}$。
3. 对协方差矩阵$S$进行特征值分解，得到特征值$\lambda_1\geq\lambda_2\geq\cdots\geq\lambda_p$和对应的特征向量$v_1,v_2,\cdots,v_p$。
4. 选择前$k$个最大的特征值对应的特征向量，组成投影矩阵$P=(v_1,v_2,\cdots,v_k)$。
5. 将数据矩阵$X$投影到新的低维空间，得到$Z = X_{centered}P$。

5.2 计算机图形学中的应用

在计算机图形学中，线性变换用于实现图形的平移、旋转、缩放等操作。例如，旋转操作可以通过旋转矩阵来实现。在二维平面中，绕原点旋转角度$\theta$的旋转矩阵为$R(\theta)=\begin{pmatrix}\cos\theta&-\sin\theta\\sin\theta&\cos\theta\end{pmatrix}$。对于一个二维向量$\begin{pmatrix}x\y\end{pmatrix}$，经过旋转后的向量为$\begin{pmatrix}x’\y’\end{pmatrix}=R(\theta)\begin{pmatrix}x\y\end{pmatrix}=\begin{pmatrix}\cos\theta&-\sin\theta\\sin\theta&\cos\theta\end{pmatrix}\begin{pmatrix}x\y\end{pmatrix}=\begin{pmatrix}x\cos\theta - y\sin\theta\x\sin\theta + y\cos\theta\end{pmatrix}$。

在三维空间中，绕$z$轴旋转角度$\alpha$的旋转矩阵为$R(\alpha)=\begin{pmatrix}\cos\alpha&-\sin\alpha&0\\sin\alpha&\cos\alpha&0\0&0&1\end{pmatrix}$。通过组合不同的旋转矩阵，可以实现复杂的三维旋转操作。

下面是一个简单的表格，总结了线性代数在不同领域的应用：
| 领域 | 应用场景 | 涉及的线性代数概念 |
| ---- | ---- | ---- |
| 机器学习 | 多元线性回归、主成分分析 | 矩阵乘法、转置、求逆，特征值分解 |
| 计算机图形学 | 图形的平移、旋转、缩放 | 旋转矩阵、线性变换 |

6. 线性代数的数值计算方法

在实际应用中，我们经常需要对矩阵进行数值计算，例如求解线性方程组$Ax = b$、计算矩阵的特征值和特征向量等。以下是一些常见的数值计算方法。

6.1 高斯消元法求解线性方程组

高斯消元法是求解线性方程组的基本方法之一。对于线性方程组$Ax = b$，其中$A$是一个$n\times n$的矩阵，$b$是一个$n$维向量，我们可以通过一系列的行变换将增广矩阵$[A|b]$化为上三角矩阵，然后通过回代求解出$x$的值。具体步骤如下：
1. 对于$k = 1,2,\cdots,n - 1$：
- 选择主元$a_{kk}$，如果$a_{kk}=0$，则交换第$k$行和下面某一行，使得$a_{kk}\neq0$。
- 对于$i = k + 1,k + 2,\cdots,n$，计算消元因子$m_{ik}=\frac{a_{ik}}{a_{kk}}$。
- 对于$j = k,k + 1,\cdots,n + 1$，更新$a_{ij}=a_{ij}-m_{ik}a_{kj}$。
2. 回代求解：
- 计算$x_n=\frac{b_n}{a_{nn}}$。
- 对于$i = n - 1,n - 2,\cdots,1$，计算$x_i=\frac{b_i-\sum_{j = i + 1}^{n}a_{ij}x_j}{a_{ii}}$。

6.2 幂法计算矩阵的最大特征值和特征向量

幂法是一种迭代算法，用于计算矩阵的最大特征值和对应的特征向量。具体步骤如下：
1. 选择一个初始向量$x^{(0)}$，通常可以选择一个随机的非零向量。
2. 对于$k = 0,1,2,\cdots$：
- 计算$y^{(k + 1)}=Ax^{(k)}$。
- 计算$\mu^{(k + 1)}=\max(y^{(k + 1)})$，其中$\max(y^{(k + 1)})$表示$y^{(k + 1)}$中绝对值最大的元素。
- 计算$x^{(k + 1)}=\frac{y^{(k + 1)}}{\mu^{(k + 1)}}$。
3. 当$\vert\mu^{(k + 1)}-\mu^{(k)}\vert<\epsilon$（$\epsilon$是一个预先设定的小正数）时，停止迭代。此时，$\mu^{(k + 1)}$就是矩阵$A$的最大特征值，$x^{(k + 1)}$就是对应的特征向量。

以下是一个流程图，展示了幂法的计算过程：

graph LR
    A[选择初始向量$x^{(0)}$] --> B[计算$y^{(k + 1)}=Ax^{(k)}$]
    B --> C[计算$\mu^{(k + 1)}=\max(y^{(k + 1)})$]
    C --> D[计算$x^{(k + 1)}=\frac{y^{(k + 1)}}{\mu^{(k + 1)}}$]
    D --> E{$\vert\mu^{(k + 1)}-\mu^{(k)}\vert<\epsilon$?}
    E -- 是 --> F[输出$\mu^{(k + 1)}$和$x^{(k + 1)}$]
    E -- 否 --> B