81、线性代数与概率基础:原理、应用与求解方法

线性代数与概率基础:原理、应用与求解方法

1. 奇异值分解(SVD)相关内容

1.1 SVD与矩阵的值域和零空间

左奇异向量和右奇异向量分别构成矩阵值域和零空间的正交基。从公式 (Ax = \sum_{j:\sigma_j>0} \sigma_j(v_j^{\top} x)u_j = \sum_{j=1}^{r} \sigma_j(v_j^{\top} x)u_j) 可知,矩阵 (A) 的值域为 (range(A) = span ({u_j : \sigma_j > 0})),其维度为 (r)((r) 是 (A) 的秩)。

为找到零空间的基,定义向量 (y = \sum_{j:\sigma_j=0} c_jv_j = \sum_{j=r+1}^{n} c_jv_j)。由于 (v_j) 是正交的,可得 (Ay = 0),所以矩阵 (A) 的零空间为 (nullspace(A) = span ({v_j : \sigma_j = 0})),维度为 (n - r)。并且有 (dim(range(A)) + dim(nullspace(A)) = r + (n - r) = n),即“秩 + 零度 = (n)”,这就是秩 - 零度定理,由此可知矩阵的秩等于非零奇异值的个数。

1.2 截断SVD

设 (A = USV^{\top}) 是 (A) 的 SVD 分解,(\hat{A}_K = U_KS_KV_K^{\top})(使用 (U) 和 (V) 的前 (K) 列),这是最优的秩 (K) 近似,能最小化 (||A - \hat{A}_K||_F^2)。

若 (K = r = rank(A)),分解无误差;若 (K < r),会产生误差,这就是截断 SVD。当奇异值快速衰减时(自然数据通常如此),误差较小。用秩 (K) 近似表示 (N \times D) 矩阵所需的参数总数为 (NK + KD + K = K(N + D + 1))。

例如,对于 (200 \times 320) 像素的图像,原图像有 (64000) 个数值,而秩为 (20) 的近似仅需 ((200 + 320 + 1) \times 20 = 10420) 个数值,却是很好的近似。近似误差为 (||A - \hat{A}|| F = \sum {k=K+1}^{r} \sigma_k),SVD 提供了矩阵的最优秩 (K) 近似。

1.3 不同秩的图像近似示例

图像
原始图像 200
近似图像1 2
近似图像2 5
近似图像3 20

1.4 SVD流程

graph LR
    A[输入矩阵A] --> B[SVD分解 A = USV^T]
    B --> C{K = rank(A)?}
    C -- 是 --> D[无误差分解]
    C -- 否 --> E[截断SVD]
    E --> F[计算近似误差 ||A - Â||F]

2. 其他矩阵分解

2.1 LU分解

任何方阵 (A) 都可分解为下三角矩阵 (L) 和上三角矩阵 (U) 的乘积,即 (A = LU)。但一般在分解前可能需要对矩阵元素进行置换。例如,若 (a_{11} = 0),由于 (a_{11} = l_{11}u_{11}),会导致 (L) 或 (U) 为奇异矩阵。为避免这种情况,算法的第一步可重新排列行,使第一个元素非零,后续步骤重复此操作,可表示为 (PA = LU),其中 (P) 是置换矩阵,这称为部分主元法。

2.2 QR分解

设 (A \in R^{m\times n}) 表示一组线性无关的基向量((m \geq n)),要找到一组正交向量 (q_1, q_2, \cdots) 来张成 (span(a_1), span(a_1, a_2), \cdots) 等子空间。即找到向量 (q_j) 和系数 (r_{ij}) 使得 (A = QR),其中 (\hat{Q}) 是 (m \times n) 且列正交的矩阵,(\hat{R}) 是 (n \times n) 的上三角矩阵,这是 (A) 的约化 QR 或经济规模 QR 分解。

完整的 QR 分解会给 (\hat{Q}) 添加 (m - n) 个正交列使其成为方阵 (Q),满足 (QQ^{\top}= Q^{\top}Q = I);给 (\hat{R}) 添加零行使其成为 (m \times n) 的上三角矩阵 (R)。QR 分解常用于求解线性方程组。

2.3 Cholesky分解

任何对称正定矩阵 (A) 都可分解为 (A = R^{\top}R),其中 (R) 是上三角矩阵且对角元素为正实数(也可写成 (A = LL^{\top}),(L = R^{\top}) 是下三角矩阵),这称为 Cholesky 分解或矩阵平方根。在 NumPy 中,可使用 np.linalg.cholesky 实现,计算复杂度为 (O(V^3))((V) 是变量数量),稀疏矩阵的复杂度可能更低。

2.3.1 应用:从多元正态分布采样

协方差矩阵的 Cholesky 分解可用于从多元高斯分布采样。设 (y \sim N(\mu, \Sigma)) 且 (\Sigma = LL^{\top}),先采样 (x \sim N(0, I))(只需从 (d) 个独立的一维高斯分布采样),然后令 (y = Lx + \mu),因为 (Cov [y] = LCov [x] L^{\top}= L I L^{\top}= \Sigma)。

2.4 矩阵分解总结

分解方法 分解形式 特点
LU分解 (PA = LU) 适用于方阵,可能需部分主元法
QR分解 (A = QR) 用于找正交基,有约化和完整形式
Cholesky分解 (A = R^{\top}R) 或 (A = LL^{\top}) 适用于对称正定矩阵

3. 求解线性方程组

3.1 求解方阵系统

当 (m = n) 时,可通过计算 (A) 的 LU 分解 (A = LU) 来求解 (Ax = b)。具体步骤如下:
1. (Ax = b) 变为 (LUx = b)。
2. 令 (Ux = L^{-1}b \triangleq y),通过回代法求解 (y)(先求解 (L_{nn}y_n = b_n) 得到 (y_n),再代入求解 (y_{n-1}) 等,常用反斜杠运算符 (y = L \backslash b) 表示)。
3. 再通过回代法求解 (x = U^{-1}y)。

3.2 求解欠约束系统(最小范数估计)

当 (m < n) 且 (A) 满秩时,解不唯一,解的形式为 ({x : Ax = b} = {x_p + z : z \in nullspace(A)}),其中 (x_p) 是任意特解。通常选择最小 (\ell_2) 范数的特解 (\hat{x} = \arg\min_{x} ||x||_2^2 \text{ s.t. } Ax = b)。

可使用右伪逆计算最小范数解 (x_{pinv} = A^{\top}(AA^{\top})^{-1}b)。从正则化最小二乘法的角度看,当正则化参数趋于无穷大时,正则化最小二乘解收敛到最小范数解。

3.3 求解过约束系统(最小二乘估计)

当 (m > n) 时,通常没有精确解,可通过最小化最小二乘目标函数 (f(x) = \frac{1}{2}||Ax - b||_2^2) 来找到最接近满足所有约束的解。

计算梯度 (g(x) = \frac{\partial}{\partial x}f(x) = A^{\top}Ax - A^{\top}b),令 (g(x) = 0) 得到正规方程 (A^{\top}Ax = A^{\top}b),解为 (\hat{x} = (A^{\top}A)^{-1}A^{\top}b),这就是普通最小二乘(OLS)解,(A^{\dagger} = (A^{\top}A)^{-1}A^{\top}) 是 (A) 的左伪逆。若 (A) 满秩,Hessian 矩阵 (H(x) = A^{\top}A) 是正定的,最小二乘目标函数有唯一全局最小值。

3.4 线性方程组求解流程

graph LR
    A[输入线性方程组 Ax = b] --> B{m = n?}
    B -- 是 --> C[LU分解求解]
    B -- 否 --> D{m < n?}
    D -- 是 --> E[最小范数估计求解]
    D -- 否 --> F[最小二乘估计求解]

4. 练习题

4.1 正交矩阵相关

a. 证明绕 (z) 轴旋转角度 (\alpha) 的矩阵 (R(\alpha) = \begin{pmatrix} \cos(\alpha) & -\sin(\alpha) & 0 \ \sin(\alpha) & \cos(\alpha) & 0 \ 0 & 0 & 1 \end{pmatrix}) 是正交矩阵,即 (R^TR = I)。
b. 求 (R) 的唯一特征值为 (1.0) 且范数为 (1) 的特征向量 (v)。

4.2 手动计算特征向量

求矩阵 (A = \begin{pmatrix} 2 & 0 \ 0 & 3 \end{pmatrix}) 的特征值和特征向量,手动计算并使用 Python 验证结果。

5. 概率基础

5.1 概率的定义

概率有两种不同的解释:频率主义解释和贝叶斯解释。频率主义认为概率代表事件多次发生的长期频率;贝叶斯解释则用概率来量化我们对某事物的不确定性或无知,与信息相关。本书采用贝叶斯解释,因为它可用于建模一次性事件的不确定性,且概率理论的基本规则不受解释方式的影响。

5.2 不确定性的类型

预测中的不确定性有两种根本不同的原因:
- 认知不确定性(模型不确定性):由于对生成数据的潜在隐藏原因或机制的无知。
- 随机不确定性(数据不确定性):源于内在的可变性,即使收集更多数据也无法减少。

例如,抛一枚公平的硬币,我们知道正面朝上的概率为 (0.5),没有认知不确定性,但仍无法完美预测结果。这种区分在主动学习等应用中很重要。

5.3 概率的基本规则

5.3.1 事件的概率

定义事件 (A) 为世界的某种状态,用 (Pr(A)) 表示事件 (A) 为真的概率,要求 (0 \leq Pr(A) \leq 1),(Pr(A) = 0) 表示事件肯定不会发生,(Pr(A) = 1) 表示事件肯定会发生,(Pr(\bar{A}) = 1 - Pr(A)) 表示事件 (A) 不发生的概率。

5.3.2 两个事件的联合概率

事件 (A) 和 (B) 同时发生的联合概率表示为 (Pr(A \land B) = Pr(A, B))。若 (A) 和 (B) 是独立事件,则 (Pr(A, B) = Pr(A) Pr(B))。例如,从集合 ({1, 2, 3, 4}) 中均匀随机选择 (X) 和 (Y),设 (A) 为 (X \in {1, 2}),(B) 为 (Y \in {3}),则 (Pr(A, B) = Pr(A) Pr(B) = \frac{1}{2} \cdot \frac{1}{4})。

5.3.3 两个事件的并集概率

事件 (A) 或 (B) 发生的概率为 (Pr(A \lor B) = Pr(A) + Pr(B) - Pr(A \land B))。

5.4 概率规则总结

概率类型 公式
事件概率 (0 \leq Pr(A) \leq 1),(Pr(\bar{A}) = 1 - Pr(A))
联合概率(独立事件) (Pr(A, B) = Pr(A) Pr(B))
并集概率 (Pr(A \lor B) = Pr(A) + Pr(B) - Pr(A \land B))

5.5 概率计算流程

graph LR
    A[输入事件A和B] --> B{判断A和B是否独立}
    B -- 是 --> C[计算Pr(A, B) = Pr(A)Pr(B)]
    B -- 否 --> D[计算Pr(A, B)其他方式]
    A --> E[计算Pr(A ∨ B) = Pr(A) + Pr(B) - Pr(A ∧ B)]

6. 概率在实际中的应用思考

6.1 决策制定中的概率运用

在实际决策中,概率的贝叶斯解释发挥着重要作用。当面临一次性事件决策时,我们可以根据已有的信息和经验,对事件发生的概率进行主观估计,从而做出最优决策。例如,在投资决策中,我们需要评估不同投资项目成功的概率,结合潜在的收益和风险,选择最适合的投资方案。

6.2 不确定性与风险管理

认知不确定性和随机不确定性在风险管理中有着不同的应对策略。对于认知不确定性,我们可以通过收集更多的数据、进行更深入的分析来减少不确定性;而对于随机不确定性,我们则需要通过分散投资、保险等方式来降低风险。例如,在股票投资中,我们可以通过投资多只不同的股票来分散随机不确定性带来的风险。

6.3 概率在机器学习中的体现

在机器学习中,概率无处不在。例如,在分类问题中,我们通常会计算样本属于不同类别的概率,然后根据概率进行分类决策;在回归问题中,我们也可以通过概率分布来描述预测值的不确定性。概率的运用使得机器学习模型能够更好地处理不确定性,提高模型的泛化能力。

6.4 概率应用的综合流程

graph LR
    A[明确决策或问题] --> B[识别不确定性类型]
    B -- 认知不确定性 --> C[收集数据和分析]
    B -- 随机不确定性 --> D[采取风险分散措施]
    C --> E[估计事件概率]
    D --> E
    E --> F[基于概率做出决策]
    F --> G[应用于机器学习或其他领域]

7. 线性代数与概率的结合应用

7.1 矩阵分解在概率模型中的应用

矩阵分解在概率模型中有着广泛的应用。例如,在主成分分析(PCA)中,我们可以通过奇异值分解(SVD)来找到数据的主成分,从而实现数据的降维。在高斯过程中,Cholesky 分解可以用于计算协方差矩阵的平方根,从而实现高效的采样和预测。

7.2 线性方程组求解与概率推断

线性方程组的求解在概率推断中也有着重要的作用。例如,在贝叶斯网络中,我们需要求解一系列的线性方程组来进行概率推断;在马尔可夫链蒙特卡罗(MCMC)方法中,线性方程组的求解也用于更新样本的状态。

7.3 结合应用的案例分析

以图像识别为例,我们可以使用 SVD 对图像进行降维,减少数据的维度和复杂度;然后使用概率模型(如高斯混合模型)对降维后的数据进行建模,计算图像属于不同类别的概率,从而实现图像的分类。

7.4 结合应用的流程总结

应用场景 线性代数方法 概率方法 结合流程
数据降维与分类 SVD 高斯混合模型 1. 使用 SVD 对数据进行降维;2. 使用高斯混合模型对降维后的数据进行建模和分类
概率推断 LU 分解、QR 分解 贝叶斯网络 1. 使用 LU 或 QR 分解求解线性方程组;2. 在贝叶斯网络中进行概率推断
采样与预测 Cholesky 分解 高斯过程 1. 使用 Cholesky 分解计算协方差矩阵的平方根;2. 在高斯过程中进行采样和预测

7.5 结合应用的流程图

graph LR
    A[输入数据] --> B[选择线性代数方法]
    B -- SVD --> C[数据降维]
    B -- LU/QR分解 --> D[求解线性方程组]
    B -- Cholesky分解 --> E[计算协方差矩阵平方根]
    C --> F[选择概率方法]
    D --> F
    E --> F
    F -- 高斯混合模型 --> G[数据分类]
    F -- 贝叶斯网络 --> H[概率推断]
    F -- 高斯过程 --> I[采样和预测]

8. 总结与展望

8.1 知识回顾

本文主要介绍了线性代数中的奇异值分解、LU 分解、QR 分解、Cholesky 分解等矩阵分解方法,以及如何使用这些方法求解线性方程组。同时,还介绍了概率的基本概念、不同的解释和类型,以及概率的基本规则。最后,探讨了线性代数与概率在实际应用中的结合,包括在决策制定、风险管理、机器学习等领域的应用。

8.2 未来发展方向

随着科技的不断发展,线性代数和概率在更多领域的应用将会越来越广泛。例如,在人工智能、大数据、量子计算等领域,线性代数和概率将发挥更加重要的作用。未来,我们可以进一步研究如何更好地结合线性代数和概率,开发出更加高效、准确的算法和模型,以应对更加复杂的实际问题。

8.3 学习建议

对于想要深入学习线性代数和概率的读者,建议先掌握基本的概念和方法,然后通过实际的案例和项目进行练习,加深对知识的理解和应用能力。同时,可以参考相关的书籍和在线课程,不断拓宽自己的知识面。

8.4 总结表格

知识领域 主要内容 应用场景
线性代数 奇异值分解、LU 分解、QR 分解、Cholesky 分解、线性方程组求解 数据降维、矩阵计算、机器学习模型求解
概率 概率的定义、不确定性类型、基本规则 决策制定、风险管理、机器学习
结合应用 矩阵分解在概率模型中的应用、线性方程组求解与概率推断 图像识别、贝叶斯网络、高斯过程
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值