82、概率与随机变量知识详解

time3

于 2025-08-29 16:00:30 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：概率机器学习入门精要文章标签：概率随机变量条件概率

本文链接：https://blog.youkuaiyun.com/time3/article/details/151315536

概率机器学习入门精要专栏收录该内容

91 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

概率与随机变量知识详解

1. 概率基础

互斥事件概率 ：若事件 (A) 和 (B) 互斥（即不能同时发生），则 (Pr(A ∨B) = Pr(A) + Pr(B))。例如，从集合 (X = {1, 2, 3, 4}) 中均匀随机选取 (X)，设 (A) 为 (X ∈{1, 2}) 的事件，(B) 为 (X ∈{3}) 的事件，那么 (Pr(A ∨B) = \frac{2}{4} + \frac{1}{4})。
条件概率 ：事件 (B) 在事件 (A) 发生的条件下发生的概率定义为 (Pr(B|A) \triangleq \frac{Pr(A, B)}{Pr(A)})。当 (Pr(A) = 0) 时，此条件概率无定义，因为不能基于不可能发生的事件进行条件设定。
条件独立性 ：
- 若 (Pr(A|B) = Pr(A))，则称事件 (A) 与事件 (B) 条件独立，此时 (Pr(B|A) = Pr(B))，且 (Pr(A, B) = Pr(A) Pr(B))，用 (A ⊥B) 表示该性质。
- 给定第三个事件 (C)，若 (Pr(A|B, C) = Pr(A|C))，则事件 (A) 和 (B) 在 (C) 条件下条件独立，也可写成 (Pr(A, B|C) = Pr(A|C) Pr(B|C))，记为 (A ⊥B|C)。例如，设 (A) 为“烟雾探测器开启”，(B) 为“附近有火灾”，(C) 为“附近有烟雾”，显然 (A) 和 (B) 相互依赖，但 (A ⊥B|C)，因为若附近有烟雾（事件 (C) 为真），探测器会开启，与是否有火灾无关。

2. 随机变量

离散随机变量 ：
- 状态空间 ：随机变量 (X) 可能取值的集合 (X) 称为状态空间。若 (X) 是有限或可数无限的，则 (X) 为离散随机变量。
- 概率质量函数（pmf） ：定义为 (p(x) \triangleq Pr(X = x))，满足 (0 \leq p(x) \leq 1) 且 (\sum_{x\in X} p(x) = 1)。若 (X) 有有限个值 (K)，pmf 可表示为 (K) 个数的列表，可绘制成直方图。例如，在 (X = {1, 2, 3, 4}) 上，均匀分布 (p(x) = \frac{1}{4})，退化分布 (p(x) = I (x = 1))（(I ()) 为二元指示函数）。
连续随机变量 ：
- 累积分布函数（cdf） ：定义 (A = (X \leq a))，(B = (X \leq b))，(C = (a < X \leq b))（(a < b)），因为 (B = A ∨C) 且 (A) 和 (C) 互斥，所以 (Pr(B) = Pr(A) + Pr(C))，即 (Pr(C) = Pr(B) - Pr(A))。一般地，随机变量 (X) 的累积分布函数 (P(x) \triangleq Pr(X \leq x))，可用于计算任意区间的概率 (Pr(a < X \leq b) = P(b) - P(a))。cdf 是单调非减函数，如标准正态分布 (N(x|0, 1)) 的 cdf 通常记为 (\Phi(x))。
- 概率密度函数（pdf） ：定义为 cdf 的导数 (p(x) \triangleq \frac{d}{dx}P(x))。给定 pdf，连续变量在有限区间的概率为 (Pr(a < X \leq b) = \int_{a}^{b} p(x)dx = P(b) - P(a))。当区间很小时，(Pr(x \leq X \leq x + dx) \approx p(x)dx)，即 (X) 在 (x) 附近小间隔内的概率约为 (x) 处的密度乘以区间宽度。
- 分位数 ：若 cdf (P) 严格单调递增，则有反函数，称为逆 cdf、百分点函数（ppf）或分位数函数。(P^{-1}(q)) 是使得 (Pr(X \leq x_q) = q) 的值 (x_q)，称为 (P) 的 (q) 分位数。(P^{-1}(0.5)) 是分布的中位数，(P^{-1}(0.25)) 和 (P^{-1}(0.75)) 是上下四分位数。例如，对于标准正态分布 (N(0, 1))，(\alpha = 0.05) 时，中央 95% 区间为 ((\Phi^{-1}(0.025), \Phi^{-1}(0.975)) = (-1.96, 1.96))；对于 (N(\mu, \sigma^2))，95% 区间为 ((\mu - 1.96\sigma, \mu + 1.96\sigma))，常近似为 (\mu \pm 2\sigma)。
符号说明 ：为简便，用 (p(A)) 代替 (Pr(A)) 表示事件 (A) 的概率，(p(x)) 同时表示 pmf 和 pdf，具体含义依上下文而定。

3. 相关随机变量集合

联合、边缘和条件分布 ：
- 联合分布 ：对于两个随机变量 (X) 和 (Y)，联合分布 (p(x, y) = p(X = x, Y = y))。若两个变量的取值有限，联合分布可表示为二维表，所有元素之和为 1。例如，两个二元变量的联合分布如下表：
  | (p(X, Y)) | (Y = 0) | (Y = 1) |
  | — | — | — |
  | (X = 0) | 0.2 | 0.3 |
  | (X = 1) | 0.3 | 0.2 |
- 边缘分布 ：(X) 的边缘分布定义为 (p(X = x) = \sum_{y} p(X = x, Y = y))，这有时称为求和规则或全概率规则。同理可定义 (Y) 的边缘分布。例如，由上述二维表可得 (p(X = 0) = 0.2 + 0.3 = 0.5)，(p(Y = 0) = 0.2 + 0.3 = 0.5)。
- 条件分布 ：(Y) 在 (X = x) 条件下的条件分布定义为 (p(Y = y|X = x) = \frac{p(X = x, Y = y)}{p(X = x)})，可重排为 (p(x, y) = p(x)p(y|x))，这称为乘积规则。将乘积规则扩展到 (D) 个变量，可得概率链规则 (p(x_{1:D}) = p(x_1)p(x_2|x_1)p(x_3|x_1, x_2)p(x_4|x_1, x_2, x_3) \cdots p(x_D|x_{1:D - 1}))，可用于从一组条件分布创建高维联合分布。以下是联合、边缘和条件分布关系的 mermaid 流程图：

graph LR
    A[联合分布 p(x,y)] --> B[边缘分布 p(x)]
    A --> C[边缘分布 p(y)]
    B & C --> D[条件分布 p(y|x)或p(x|y)]

贝叶斯规则 ：结合条件概率的定义、乘积规则和求和规则可得贝叶斯规则 (p(Y = y|X = x) = \frac{p(X = x, Y = y)}{p(X = x)} = \frac{p(Y = y)p(X = x|Y = y)}{\sum_{y’} p(Y = y’)p(X = x|Y = y’)})。它提供了一种从 (X = x) 的噪声测量中估计未知变量 (Y) 的方法，通过将先验信念 (p(y)) 与观测过程模型（似然项 (p(x|y))）相结合，得到后验分布 (p(y|x))，即“后验 (\propto) 先验 (\times) 似然”。
独立性和条件独立性 ：
- 无条件独立性 ：若 (X) 和 (Y) 的联合分布可表示为两个边缘分布的乘积，即 (X ⊥Y \Leftrightarrow p(X, Y) = p(X)p(Y))，则称 (X) 和 (Y) 无条件独立或边缘独立。一般地，若一组变量的联合分布可写成边缘分布的乘积，则称这些变量相互独立。
- 条件独立性 ：给定 (Z)，若 (p(X, Y|Z) = p(X|Z)p(Y|Z))，则称 (X) 和 (Y) 在 (Z) 条件下条件独立，记为 (X ⊥Y | Z)。可将此假设表示为图 (X - Z - Y)，意味着 (X) 和 (Y) 之间的所有依赖关系都通过 (Z) 介导。通过使用更大的图，可以定义复杂的联合分布。

4. 分布的性质

分布的矩 ：
- 均值：
  - 连续随机变量的均值定义为 (E [X] \triangleq \int_{X} x p(x)dx)，若积分不收敛，则均值无定义。
  - 离散随机变量的均值定义为 (E [X] \triangleq \sum_{x\in X} x p(x))，但仅当 (x) 的值以某种方式有序（如表示整数计数）时才有意义。
  - 均值是线性算子，满足 (E [aX + b] = aE [X] + b)，这称为期望的线性性。
- 方差：方差是衡量分布“分散程度”的指标，定义为 (V [X] \triangleq E[(X - \mu)^2] = \int (x - \mu)^2p(x)dx = E[X^2] - \mu^2)，由此可得 (E[X^2] = \sigma^2 + \mu^2)。标准差定义为 (std [X] \triangleq \sqrt{V [X]} = \sigma)，其单位与 (X) 相同。随机变量平移和缩放后的方差为 (V [aX + b] = a^2V [X])。
- 众数：分布的众数是概率质量或概率密度最高的值，即 (x^* = \arg\max_{x} p(x))。若分布是多峰的，众数可能不唯一；即使有唯一众数，该点也可能不是分布的良好概括。
- 条件矩 ：
  - 迭代期望定律 ：(E [X] = E [E [X|Y ]])。以灯泡为例，设 (X) 为灯泡寿命，(Y) 为灯泡生产工厂。若 (E [X|Y = 1] = 5000)，(E [X|Y = 2] = 4000)，且工厂 1 供应 60% 的灯泡（(p(Y = 1) = 0.6)），工厂 2 供应 40% 的灯泡（(p(Y = 2) = 0.4)），则随机灯泡的总体期望寿命为 (E [X] = E [X|Y = 1] p(Y = 1) + E [X|Y = 2] p(Y = 2) = 5000 \times 0.6 + 4000 \times 0.4 = 4600)。
  - 总方差定律 ：(V [X] = E [V [X|Y ]] + V [E [X|Y ]])。以混合 (K) 个单变量高斯分布为例，设 (Y) 为指定使用哪个混合分量的隐藏指示变量，(X = \sum_{y = 1}^{K} \pi_x N(X|\mu_y, \sigma_y))。在图 D.4 中，(\pi_1 = \pi_2 = 0.5)，(\mu_1 = 0)，(\mu_2 = 2)，(\sigma_1 = \sigma_2 = 0.5)，则 (E [V [X|Y ]] = \pi_1\sigma_1 + \pi_2\sigma_2 = 0.5)，(V [E [X|Y ]] = \pi_1(\mu_1 - \mu)^2 + \pi_2(\mu_2 - \mu)^2 = 0.5(0 - 1)^2 + 0.5(2 - 1)^2 = 0.5 + 0.5 = 1)，可见 (Y) 的方差主要由其抽取的质心（即均值差异）决定，而非每个质心周围的局部方差。
协方差 ：
- 两个随机变量 (X) 和 (Y) 的协方差定义为 (Cov [X, Y ] \triangleq E[(X - E [X])(Y - E [Y ])] = E [XY ] - E [X] E [Y ])。
- (D) 维随机向量 (x) 的协方差矩阵定义为 (Cov [x] \triangleq E[(x - E [x])(x - E [x])^T] \triangleq \Sigma)，是对称的半正定矩阵，形式如下：
  [
  \Sigma =
  \begin{pmatrix}
  V [X_1] & Cov [X_1, X_2] & \cdots & Cov [X_1, X_D] \
  Cov [X_2, X_1] & V [X_2] & \cdots & Cov [X_2, X_D] \
  \vdots & \vdots & \ddots & \vdots \
  Cov [X_D, X_1] & Cov [X_D, X_2] & \cdots & V [X_D]
  \end{pmatrix}
  ]
  由此可得 (E[xx^T] = \Sigma + \mu\mu^T)。线性变换的协方差为 (Cov [Ax + b] = A Cov [x] A^T)。两个随机向量的交叉协方差定义为 (Cov [x, y] = E[(x - E [x])(y - E [y])^T])。

概率与随机变量知识详解

5. 总结与应用示例

知识总结 ：
- 概率基础涵盖互斥事件概率、条件概率和条件独立性等概念，这些是理解随机现象的基石。
- 随机变量分为离散和连续两种类型，分别有对应的概率质量函数（pmf）和概率密度函数（pdf），以及累积分布函数（cdf）和分位数等重要概念。
- 相关随机变量集合涉及联合、边缘和条件分布，贝叶斯规则在从观测数据估计未知变量中发挥关键作用，独立性和条件独立性有助于简化复杂的概率模型。
- 分布的性质包括矩（均值、方差、众数、条件矩）和协方差，这些指标用于描述分布的特征和变量之间的关系。
应用示例 ：
- 风险评估 ：在金融领域，可将资产的收益率视为随机变量。通过计算收益率的均值和方差，可以评估投资的预期回报和风险程度。例如，若某股票的收益率均值较高且方差较小，则该股票可能是相对较好的投资选择。
- 医学诊断 ：设 (A) 为“患者患有某种疾病”，(B) 为“某种检测结果呈阳性”。已知先验概率 (p(A))（即人群中该疾病的患病率）、似然概率 (p(B|A))（患病时检测呈阳性的概率）和 (p(B|\neg A))（未患病时检测呈阳性的概率），利用贝叶斯规则可以计算后验概率 (p(A|B))，即检测呈阳性时患者实际患病的概率，从而辅助医生进行诊断。
- 信号处理 ：在通信系统中，接收到的信号往往受到噪声干扰。可将信号和噪声视为随机变量，通过分析它们的概率分布和协方差等性质，设计合适的滤波器来去除噪声，提高信号的质量。

6. 常见问题解答

为了帮助大家更好地理解概率与随机变量的相关知识，以下是一些常见问题的解答：
|问题|解答|
|----|----|
|如何判断两个事件是否条件独立？|判断事件 (A) 和 (B) 在事件 (C) 条件下是否条件独立，需验证 (p(A|B, C) = p(A|C)) 或 (p(A, B|C) = p(A|C) p(B|C)) 是否成立。若成立，则 (A) 和 (B) 在 (C) 条件下条件独立。|
|离散随机变量和连续随机变量的主要区别是什么？|离散随机变量的取值是有限或可数无限的，用概率质量函数（pmf）描述其概率分布；连续随机变量的取值是实数，用概率密度函数（pdf）描述其概率分布。此外，离散随机变量的概率是对具体取值的概率赋值，而连续随机变量在某一点的概率为 0，需通过积分计算区间的概率。|
|贝叶斯规则在实际应用中有哪些限制？|贝叶斯规则的应用依赖于先验概率的选择，若先验概率不准确，可能导致后验概率的偏差。此外，在复杂问题中，计算似然概率和积分可能非常困难，需要进行近似计算。|
|如何计算随机变量的矩和协方差？|对于离散随机变量，均值 (E [X] = \sum_{x\in X} x p(x))，方差 (V [X] = E[(X - \mu)^2] = \sum_{x\in X} (x - \mu)^2 p(x))；对于连续随机变量，均值 (E [X] = \int_{X} x p(x)dx)，方差 (V [X] = \int (x - \mu)^2p(x)dx)。协方差 (Cov [X, Y ] = E[(X - E [X])(Y - E [Y ])] = E [XY ] - E [X] E [Y ])。|

7. 进一步学习建议

概率与随机变量是概率论和统计学的核心内容，对于深入学习机器学习、信号处理、金融工程等领域至关重要。以下是一些进一步学习的建议：
- 阅读专业书籍 ：推荐阅读《概率论与数理统计》等经典教材，深入学习概率的理论知识和应用方法。
- 实践项目 ：通过参与实际项目，如数据分析、机器学习竞赛等，将所学知识应用到实际问题中，提高解决问题的能力。
- 在线课程 ：可以在 Coursera、EdX 等在线学习平台上找到相关的课程，跟随专业教师的讲解进行系统学习。

以下是一个学习路径的 mermaid 流程图，帮助大家规划学习过程：

graph LR
    A[学习概率基础] --> B[掌握随机变量]
    B --> C[理解相关随机变量集合]
    C --> D[熟悉分布的性质]
    D --> E[应用于实际项目]
    E --> F[深入学习高级理论]

希望通过本文的介绍，大家对概率与随机变量有了更深入的理解和认识。在实际应用中，不断探索和实践，将这些知识运用到具体问题中，解决更多的实际难题。