81、线性代数与概率基础：原理、应用与求解方法-优快云博客

本文链接：https://blog.youkuaiyun.com/time3/article/details/151315532

线性代数与概率基础：原理、应用与求解方法

1. 奇异值分解（SVD）相关内容

1.1 SVD与矩阵的值域和零空间

左奇异向量和右奇异向量分别构成矩阵值域和零空间的正交基。从公式 (Ax = \sum_{j:\sigma_j>0} \sigma_j(v_j^{\top} x)u_j = \sum_{j=1}^{r} \sigma_j(v_j^{\top} x)u_j) 可知，矩阵 (A) 的值域为 (range(A) = span ({u_j : \sigma_j > 0}))，其维度为 (r)（(r) 是 (A) 的秩）。

为找到零空间的基，定义向量 (y = \sum_{j:\sigma_j=0} c_jv_j = \sum_{j=r+1}^{n} c_jv_j)。由于 (v_j) 是正交的，可得 (Ay = 0)，所以矩阵 (A) 的零空间为 (nullspace(A) = span ({v_j : \sigma_j = 0}))，维度为 (n - r)。并且有 (dim(range(A)) + dim(nullspace(A)) = r + (n - r) = n)，即“秩 + 零度 = (n)”，这就是秩 - 零度定理，由此可知矩阵的秩等于非零奇异值的个数。

1.2 截断SVD

设 (A = USV^{\top}) 是 (A) 的 SVD 分解，(\hat{A}_K = U_KS_KV_K^{\top})（使用 (U) 和 (V) 的前 (K) 列），这是最优的秩 (K) 近似，能最小化 (||A - \hat{A}_K||_F^2)。

若 (K = r = rank(A))，分解无误差；若 (K < r)，会产生误差，这就是截断 SVD。当奇异值快速衰减时（自然数据通常如此），误差较小。用秩 (K) 近似表示 (N \times D) 矩阵所需的参数总数为 (NK + KD + K = K(N + D + 1))。

例如，对于 (200 \times 320) 像素的图像，原图像有 (64000) 个数值，而秩为 (20) 的近似仅需 ((200 + 320 + 1) \times 20 = 10420) 个数值，却是很好的近似。近似误差为 (||A - \hat{A}|| F = \sum {k=K+1}^{r} \sigma_k)，SVD 提供了矩阵的最优秩 (K) 近似。

1.3 不同秩的图像近似示例

图像	秩
原始图像	200
近似图像1	2
近似图像2	5
近似图像3	20

1.4 SVD流程

graph LR
    A[输入矩阵A] --> B[SVD分解 A = USV^T]
    B --> C{K = rank(A)?}
    C -- 是 --> D[无误差分解]
    C -- 否 --> E[截断SVD]
    E --> F[计算近似误差 ||A - Â||F]

2. 其他矩阵分解

2.1 LU分解

任何方阵 (A) 都可分解为下三角矩阵 (L) 和上三角矩阵 (U) 的乘积，即 (A = LU)。但一般在分解前可能需要对矩阵元素进行置换。例如，若 (a_{11} = 0)，由于 (a_{11} = l_{11}u_{11})，会导致 (L) 或 (U) 为奇异矩阵。为避免这种情况，算法的第一步可重新排列行，使第一个元素非零，后续步骤重复此操作，可表示为 (PA = LU)，其中 (P) 是置换矩阵，这称为部分主元法。

2.2 QR分解

设 (A \in R^{m\times n}) 表示一组线性无关的基向量（(m \geq n)），要找到一组正交向量 (q_1, q_2, \cdots) 来张成 (span(a_1), span(a_1, a_2), \cdots) 等子空间。即找到向量 (q_j) 和系数 (r_{ij}) 使得 (A = QR)，其中 (\hat{Q}) 是 (m \times n) 且列正交的矩阵，(\hat{R}) 是 (n \times n) 的上三角矩阵，这是 (A) 的约化 QR 或经济规模 QR 分解。

完整的 QR 分解会给 (\hat{Q}) 添加 (m - n) 个正交列使其成为方阵 (Q)，满足 (QQ^{\top}= Q^{\top}Q = I)；给 (\hat{R}) 添加零行使其成为 (m \times n) 的上三角矩阵 (R)。QR 分解常用于求解线性方程组。

2.3 Cholesky分解

任何对称正定矩阵 (A) 都可分解为 (A = R^{\top}R)，其中 (R) 是上三角矩阵且对角元素为正实数（也可写成 (A = LL^{\top})，(L = R^{\top}) 是下三角矩阵），这称为 Cholesky 分解或矩阵平方根。在 NumPy 中，可使用 np.linalg.cholesky 实现，计算复杂度为 (O(V^3))（(V) 是变量数量），稀疏矩阵的复杂度可能更低。

2.3.1 应用：从多元正态分布采样

协方差矩阵的 Cholesky 分解可用于从多元高斯分布采样。设 (y \sim N(\mu, \Sigma)) 且 (\Sigma = LL^{\top})，先采样 (x \sim N(0, I))（只需从 (d) 个独立的一维高斯分布采样），然后令 (y = Lx + \mu)，因为 (Cov [y] = LCov [x] L^{\top}= L I L^{\top}= \Sigma)。

2.4 矩阵分解总结

分解方法	分解形式	特点
LU分解	(PA = LU)	适用于方阵，可能需部分主元法
QR分解	(A = QR)	用于找正交基，有约化和完整形式
Cholesky分解	(A = R^{\top}R) 或 (A = LL^{\top})	适用于对称正定矩阵

3. 求解线性方程组

3.1 求解方阵系统

当 (m = n) 时，可通过计算 (A) 的 LU 分解 (A = LU) 来求解 (Ax = b)。具体步骤如下：
1. (Ax = b) 变为 (LUx = b)。
2. 令 (Ux = L^{-1}b \triangleq y)，通过回代法求解 (y)（先求解 (L_{nn}y_n = b_n) 得到 (y_n)，再代入求解 (y_{n-1}) 等，常用反斜杠运算符 (y = L \backslash b) 表示）。
3. 再通过回代法求解 (x = U^{-1}y)。

3.2 求解欠约束系统（最小范数估计）

当 (m < n) 且 (A) 满秩时，解不唯一，解的形式为 ({x : Ax = b} = {x_p + z : z \in nullspace(A)})，其中 (x_p) 是任意特解。通常选择最小 (\ell_2) 范数的特解 (\hat{x} = \arg\min_{x} ||x||_2^2 \text{ s.t. } Ax = b)。

可使用右伪逆计算最小范数解 (x_{pinv} = A^{\top}(AA^{\top})^{-1}b)。从正则化最小二乘法的角度看，当正则化参数趋于无穷大时，正则化最小二乘解收敛到最小范数解。

3.3 求解过约束系统（最小二乘估计）

当 (m > n) 时，通常没有精确解，可通过最小化最小二乘目标函数 (f(x) = \frac{1}{2}||Ax - b||_2^2) 来找到最接近满足所有约束的解。

计算梯度 (g(x) = \frac{\partial}{\partial x}f(x) = A^{\top}Ax - A^{\top}b)，令 (g(x) = 0) 得到正规方程 (A^{\top}Ax = A^{\top}b)，解为 (\hat{x} = (A^{\top}A)^{-1}A^{\top}b)，这就是普通最小二乘（OLS）解，(A^{\dagger} = (A^{\top}A)^{-1}A^{\top}) 是 (A) 的左伪逆。若 (A) 满秩，Hessian 矩阵 (H(x) = A^{\top}A) 是正定的，最小二乘目标函数有唯一全局最小值。

3.4 线性方程组求解流程

graph LR
    A[输入线性方程组 Ax = b] --> B{m = n?}
    B -- 是 --> C[LU分解求解]
    B -- 否 --> D{m < n?}
    D -- 是 --> E[最小范数估计求解]
    D -- 否 --> F[最小二乘估计求解]

4. 练习题

4.1 正交矩阵相关

a. 证明绕 (z) 轴旋转角度 (\alpha) 的矩阵 (R(\alpha) = \begin{pmatrix} \cos(\alpha) & -\sin(\alpha) & 0 \ \sin(\alpha) & \cos(\alpha) & 0 \ 0 & 0 & 1 \end{pmatrix}) 是正交矩阵，即 (R^TR = I)。
b. 求 (R) 的唯一特征值为 (1.0) 且范数为 (1) 的特征向量 (v)。

4.2 手动计算特征向量

求矩阵 (A = \begin{pmatrix} 2 & 0 \ 0 & 3 \end{pmatrix}) 的特征值和特征向量，手动计算并使用 Python 验证结果。

5. 概率基础

5.1 概率的定义

概率有两种不同的解释：频率主义解释和贝叶斯解释。频率主义认为概率代表事件多次发生的长期频率；贝叶斯解释则用概率来量化我们对某事物的不确定性或无知，与信息相关。本书采用贝叶斯解释，因为它可用于建模一次性事件的不确定性，且概率理论的基本规则不受解释方式的影响。

5.2 不确定性的类型

预测中的不确定性有两种根本不同的原因：
- 认知不确定性（模型不确定性）：由于对生成数据的潜在隐藏原因或机制的无知。
- 随机不确定性（数据不确定性）：源于内在的可变性，即使收集更多数据也无法减少。

例如，抛一枚公平的硬币，我们知道正面朝上的概率为 (0.5)，没有认知不确定性，但仍无法完美预测结果。这种区分在主动学习等应用中很重要。

5.3 概率的基本规则

5.3.1 事件的概率

定义事件 (A) 为世界的某种状态，用 (Pr(A)) 表示事件 (A) 为真的概率，要求 (0 \leq Pr(A) \leq 1)，(Pr(A) = 0) 表示事件肯定不会发生，(Pr(A) = 1) 表示事件肯定会发生，(Pr(\bar{A}) = 1 - Pr(A)) 表示事件 (A) 不发生的概率。

5.3.2 两个事件的联合概率

事件 (A) 和 (B) 同时发生的联合概率表示为 (Pr(A \land B) = Pr(A, B))。若 (A) 和 (B) 是独立事件，则 (Pr(A, B) = Pr(A) Pr(B))。例如，从集合 ({1, 2, 3, 4}) 中均匀随机选择 (X) 和 (Y)，设 (A) 为 (X \in {1, 2})，(B) 为 (Y \in {3})，则 (Pr(A, B) = Pr(A) Pr(B) = \frac{1}{2} \cdot \frac{1}{4})。

5.3.3 两个事件的并集概率

事件 (A) 或 (B) 发生的概率为 (Pr(A \lor B) = Pr(A) + Pr(B) - Pr(A \land B))。

5.4 概率规则总结

概率类型	公式
事件概率	(0 \leq Pr(A) \leq 1)，(Pr(\bar{A}) = 1 - Pr(A))
联合概率（独立事件）	(Pr(A, B) = Pr(A) Pr(B))
并集概率	(Pr(A \lor B) = Pr(A) + Pr(B) - Pr(A \land B))

5.5 概率计算流程

graph LR
    A[输入事件A和B] --> B{判断A和B是否独立}
    B -- 是 --> C[计算Pr(A, B) = Pr(A)Pr(B)]
    B -- 否 --> D[计算Pr(A, B)其他方式]
    A --> E[计算Pr(A ∨ B) = Pr(A) + Pr(B) - Pr(A ∧ B)]

6. 概率在实际中的应用思考

6.1 决策制定中的概率运用

在实际决策中，概率的贝叶斯解释发挥着重要作用。当面临一次性事件决策时，我们可以根据已有的信息和经验，对事件发生的概率进行主观估计，从而做出最优决策。例如，在投资决策中，我们需要评估不同投资项目成功的概率，结合潜在的收益和风险，选择最适合的投资方案。

6.2 不确定性与风险管理

认知不确定性和随机不确定性在风险管理中有着不同的应对策略。对于认知不确定性，我们可以通过收集更多的数据、进行更深入的分析来减少不确定性；而对于随机不确定性，我们则需要通过分散投资、保险等方式来降低风险。例如，在股票投资中，我们可以通过投资多只不同的股票来分散随机不确定性带来的风险。

6.3 概率在机器学习中的体现

在机器学习中，概率无处不在。例如，在分类问题中，我们通常会计算样本属于不同类别的概率，然后根据概率进行分类决策；在回归问题中，我们也可以通过概率分布来描述预测值的不确定性。概率的运用使得机器学习模型能够更好地处理不确定性，提高模型的泛化能力。

6.4 概率应用的综合流程

graph LR
    A[明确决策或问题] --> B[识别不确定性类型]
    B -- 认知不确定性 --> C[收集数据和分析]
    B -- 随机不确定性 --> D[采取风险分散措施]
    C --> E[估计事件概率]
    D --> E
    E --> F[基于概率做出决策]
    F --> G[应用于机器学习或其他领域]

7. 线性代数与概率的结合应用

7.1 矩阵分解在概率模型中的应用

矩阵分解在概率模型中有着广泛的应用。例如，在主成分分析（PCA）中，我们可以通过奇异值分解（SVD）来找到数据的主成分，从而实现数据的降维。在高斯过程中，Cholesky 分解可以用于计算协方差矩阵的平方根，从而实现高效的采样和预测。

7.2 线性方程组求解与概率推断

线性方程组的求解在概率推断中也有着重要的作用。例如，在贝叶斯网络中，我们需要求解一系列的线性方程组来进行概率推断；在马尔可夫链蒙特卡罗（MCMC）方法中，线性方程组的求解也用于更新样本的状态。

7.3 结合应用的案例分析

以图像识别为例，我们可以使用 SVD 对图像进行降维，减少数据的维度和复杂度；然后使用概率模型（如高斯混合模型）对降维后的数据进行建模，计算图像属于不同类别的概率，从而实现图像的分类。

7.4 结合应用的流程总结

应用场景	线性代数方法	概率方法	结合流程
数据降维与分类	SVD	高斯混合模型	1. 使用 SVD 对数据进行降维；2. 使用高斯混合模型对降维后的数据进行建模和分类
概率推断	LU 分解、QR 分解	贝叶斯网络	1. 使用 LU 或 QR 分解求解线性方程组；2. 在贝叶斯网络中进行概率推断
采样与预测	Cholesky 分解	高斯过程	1. 使用 Cholesky 分解计算协方差矩阵的平方根；2. 在高斯过程中进行采样和预测

7.5 结合应用的流程图

graph LR
    A[输入数据] --> B[选择线性代数方法]
    B -- SVD --> C[数据降维]
    B -- LU/QR分解 --> D[求解线性方程组]
    B -- Cholesky分解 --> E[计算协方差矩阵平方根]
    C --> F[选择概率方法]
    D --> F
    E --> F
    F -- 高斯混合模型 --> G[数据分类]
    F -- 贝叶斯网络 --> H[概率推断]
    F -- 高斯过程 --> I[采样和预测]

8. 总结与展望

8.1 知识回顾

本文主要介绍了线性代数中的奇异值分解、LU 分解、QR 分解、Cholesky 分解等矩阵分解方法，以及如何使用这些方法求解线性方程组。同时，还介绍了概率的基本概念、不同的解释和类型，以及概率的基本规则。最后，探讨了线性代数与概率在实际应用中的结合，包括在决策制定、风险管理、机器学习等领域的应用。

8.2 未来发展方向

随着科技的不断发展，线性代数和概率在更多领域的应用将会越来越广泛。例如，在人工智能、大数据、量子计算等领域，线性代数和概率将发挥更加重要的作用。未来，我们可以进一步研究如何更好地结合线性代数和概率，开发出更加高效、准确的算法和模型，以应对更加复杂的实际问题。

8.3 学习建议

对于想要深入学习线性代数和概率的读者，建议先掌握基本的概念和方法，然后通过实际的案例和项目进行练习，加深对知识的理解和应用能力。同时，可以参考相关的书籍和在线课程，不断拓宽自己的知识面。

8.4 总结表格

知识领域	主要内容	应用场景
线性代数	奇异值分解、LU 分解、QR 分解、Cholesky 分解、线性方程组求解	数据降维、矩阵计算、机器学习模型求解
概率	概率的定义、不确定性类型、基本规则	决策制定、风险管理、机器学习
结合应用	矩阵分解在概率模型中的应用、线性方程组求解与概率推断	图像识别、贝叶斯网络、高斯过程