概率与随机变量知识详解
1. 概率基础
- 互斥事件概率 :若事件 (A) 和 (B) 互斥(即不能同时发生),则 (Pr(A ∨B) = Pr(A) + Pr(B))。例如,从集合 (X = {1, 2, 3, 4}) 中均匀随机选取 (X),设 (A) 为 (X ∈{1, 2}) 的事件,(B) 为 (X ∈{3}) 的事件,那么 (Pr(A ∨B) = \frac{2}{4} + \frac{1}{4})。
- 条件概率 :事件 (B) 在事件 (A) 发生的条件下发生的概率定义为 (Pr(B|A) \triangleq \frac{Pr(A, B)}{Pr(A)})。当 (Pr(A) = 0) 时,此条件概率无定义,因为不能基于不可能发生的事件进行条件设定。
-
条件独立性
:
- 若 (Pr(A|B) = Pr(A)),则称事件 (A) 与事件 (B) 条件独立,此时 (Pr(B|A) = Pr(B)),且 (Pr(A, B) = Pr(A) Pr(B)),用 (A ⊥B) 表示该性质。
- 给定第三个事件 (C),若 (Pr(A|B, C) = Pr(A|C)),则事件 (A) 和 (B) 在 (C) 条件下条件独立,也可写成 (Pr(A, B|C) = Pr(A|C) Pr(B|C)),记为 (A ⊥B|C)。例如,设 (A) 为“烟雾探测器开启”,(B) 为“附近有火灾”,(C) 为“附近有烟雾”,显然 (A) 和 (B) 相互依赖,但 (A ⊥B|C),因为若附近有烟雾(事件 (C) 为真),探测器会开启,与是否有火灾无关。
2. 随机变量
-
离散随机变量
:
- 状态空间 :随机变量 (X) 可能取值的集合 (X) 称为状态空间。若 (X) 是有限或可数无限的,则 (X) 为离散随机变量。
- 概率质量函数(pmf) :定义为 (p(x) \triangleq Pr(X = x)),满足 (0 \leq p(x) \leq 1) 且 (\sum_{x\in X} p(x) = 1)。若 (X) 有有限个值 (K),pmf 可表示为 (K) 个数的列表,可绘制成直方图。例如,在 (X = {1, 2, 3, 4}) 上,均匀分布 (p(x) = \frac{1}{4}),退化分布 (p(x) = I (x = 1))((I ()) 为二元指示函数)。
-
连续随机变量
:
- 累积分布函数(cdf) :定义 (A = (X \leq a)),(B = (X \leq b)),(C = (a < X \leq b))((a < b)),因为 (B = A ∨C) 且 (A) 和 (C) 互斥,所以 (Pr(B) = Pr(A) + Pr(C)),即 (Pr(C) = Pr(B) - Pr(A))。一般地,随机变量 (X) 的累积分布函数 (P(x) \triangleq Pr(X \leq x)),可用于计算任意区间的概率 (Pr(a < X \leq b) = P(b) - P(a))。cdf 是单调非减函数,如标准正态分布 (N(x|0, 1)) 的 cdf 通常记为 (\Phi(x))。
- 概率密度函数(pdf) :定义为 cdf 的导数 (p(x) \triangleq \frac{d}{dx}P(x))。给定 pdf,连续变量在有限区间的概率为 (Pr(a < X \leq b) = \int_{a}^{b} p(x)dx = P(b) - P(a))。当区间很小时,(Pr(x \leq X \leq x + dx) \approx p(x)dx),即 (X) 在 (x) 附近小间隔内的概率约为 (x) 处的密度乘以区间宽度。
- 分位数 :若 cdf (P) 严格单调递增,则有反函数,称为逆 cdf、百分点函数(ppf)或分位数函数。(P^{-1}(q)) 是使得 (Pr(X \leq x_q) = q) 的值 (x_q),称为 (P) 的 (q) 分位数。(P^{-1}(0.5)) 是分布的中位数,(P^{-1}(0.25)) 和 (P^{-1}(0.75)) 是上下四分位数。例如,对于标准正态分布 (N(0, 1)),(\alpha = 0.05) 时,中央 95% 区间为 ((\Phi^{-1}(0.025), \Phi^{-1}(0.975)) = (-1.96, 1.96));对于 (N(\mu, \sigma^2)),95% 区间为 ((\mu - 1.96\sigma, \mu + 1.96\sigma)),常近似为 (\mu \pm 2\sigma)。
- 符号说明 :为简便,用 (p(A)) 代替 (Pr(A)) 表示事件 (A) 的概率,(p(x)) 同时表示 pmf 和 pdf,具体含义依上下文而定。
3. 相关随机变量集合
-
联合、边缘和条件分布
:
-
联合分布
:对于两个随机变量 (X) 和 (Y),联合分布 (p(x, y) = p(X = x, Y = y))。若两个变量的取值有限,联合分布可表示为二维表,所有元素之和为 1。例如,两个二元变量的联合分布如下表:
| (p(X, Y)) | (Y = 0) | (Y = 1) |
| — | — | — |
| (X = 0) | 0.2 | 0.3 |
| (X = 1) | 0.3 | 0.2 | - 边缘分布 :(X) 的边缘分布定义为 (p(X = x) = \sum_{y} p(X = x, Y = y)),这有时称为求和规则或全概率规则。同理可定义 (Y) 的边缘分布。例如,由上述二维表可得 (p(X = 0) = 0.2 + 0.3 = 0.5),(p(Y = 0) = 0.2 + 0.3 = 0.5)。
- 条件分布 :(Y) 在 (X = x) 条件下的条件分布定义为 (p(Y = y|X = x) = \frac{p(X = x, Y = y)}{p(X = x)}),可重排为 (p(x, y) = p(x)p(y|x)),这称为乘积规则。将乘积规则扩展到 (D) 个变量,可得概率链规则 (p(x_{1:D}) = p(x_1)p(x_2|x_1)p(x_3|x_1, x_2)p(x_4|x_1, x_2, x_3) \cdots p(x_D|x_{1:D - 1})),可用于从一组条件分布创建高维联合分布。以下是联合、边缘和条件分布关系的 mermaid 流程图:
-
联合分布
:对于两个随机变量 (X) 和 (Y),联合分布 (p(x, y) = p(X = x, Y = y))。若两个变量的取值有限,联合分布可表示为二维表,所有元素之和为 1。例如,两个二元变量的联合分布如下表:
graph LR
A[联合分布 p(x,y)] --> B[边缘分布 p(x)]
A --> C[边缘分布 p(y)]
B & C --> D[条件分布 p(y|x)或p(x|y)]
- 贝叶斯规则 :结合条件概率的定义、乘积规则和求和规则可得贝叶斯规则 (p(Y = y|X = x) = \frac{p(X = x, Y = y)}{p(X = x)} = \frac{p(Y = y)p(X = x|Y = y)}{\sum_{y’} p(Y = y’)p(X = x|Y = y’)})。它提供了一种从 (X = x) 的噪声测量中估计未知变量 (Y) 的方法,通过将先验信念 (p(y)) 与观测过程模型(似然项 (p(x|y)))相结合,得到后验分布 (p(y|x)),即“后验 (\propto) 先验 (\times) 似然”。
-
独立性和条件独立性
:
- 无条件独立性 :若 (X) 和 (Y) 的联合分布可表示为两个边缘分布的乘积,即 (X ⊥Y \Leftrightarrow p(X, Y) = p(X)p(Y)),则称 (X) 和 (Y) 无条件独立或边缘独立。一般地,若一组变量的联合分布可写成边缘分布的乘积,则称这些变量相互独立。
- 条件独立性 :给定 (Z),若 (p(X, Y|Z) = p(X|Z)p(Y|Z)),则称 (X) 和 (Y) 在 (Z) 条件下条件独立,记为 (X ⊥Y | Z)。可将此假设表示为图 (X - Z - Y),意味着 (X) 和 (Y) 之间的所有依赖关系都通过 (Z) 介导。通过使用更大的图,可以定义复杂的联合分布。
4. 分布的性质
-
分布的矩
:
-
均值
:
- 连续随机变量的均值定义为 (E [X] \triangleq \int_{X} x p(x)dx),若积分不收敛,则均值无定义。
- 离散随机变量的均值定义为 (E [X] \triangleq \sum_{x\in X} x p(x)),但仅当 (x) 的值以某种方式有序(如表示整数计数)时才有意义。
- 均值是线性算子,满足 (E [aX + b] = aE [X] + b),这称为期望的线性性。
- 方差 :方差是衡量分布“分散程度”的指标,定义为 (V [X] \triangleq E[(X - \mu)^2] = \int (x - \mu)^2p(x)dx = E[X^2] - \mu^2),由此可得 (E[X^2] = \sigma^2 + \mu^2)。标准差定义为 (std [X] \triangleq \sqrt{V [X]} = \sigma),其单位与 (X) 相同。随机变量平移和缩放后的方差为 (V [aX + b] = a^2V [X])。
- 众数 :分布的众数是概率质量或概率密度最高的值,即 (x^* = \arg\max_{x} p(x))。若分布是多峰的,众数可能不唯一;即使有唯一众数,该点也可能不是分布的良好概括。
-
条件矩
:
- 迭代期望定律 :(E [X] = E [E [X|Y ]])。以灯泡为例,设 (X) 为灯泡寿命,(Y) 为灯泡生产工厂。若 (E [X|Y = 1] = 5000),(E [X|Y = 2] = 4000),且工厂 1 供应 60% 的灯泡((p(Y = 1) = 0.6)),工厂 2 供应 40% 的灯泡((p(Y = 2) = 0.4)),则随机灯泡的总体期望寿命为 (E [X] = E [X|Y = 1] p(Y = 1) + E [X|Y = 2] p(Y = 2) = 5000 \times 0.6 + 4000 \times 0.4 = 4600)。
- 总方差定律 :(V [X] = E [V [X|Y ]] + V [E [X|Y ]])。以混合 (K) 个单变量高斯分布为例,设 (Y) 为指定使用哪个混合分量的隐藏指示变量,(X = \sum_{y = 1}^{K} \pi_x N(X|\mu_y, \sigma_y))。在图 D.4 中,(\pi_1 = \pi_2 = 0.5),(\mu_1 = 0),(\mu_2 = 2),(\sigma_1 = \sigma_2 = 0.5),则 (E [V [X|Y ]] = \pi_1\sigma_1 + \pi_2\sigma_2 = 0.5),(V [E [X|Y ]] = \pi_1(\mu_1 - \mu)^2 + \pi_2(\mu_2 - \mu)^2 = 0.5(0 - 1)^2 + 0.5(2 - 1)^2 = 0.5 + 0.5 = 1),可见 (Y) 的方差主要由其抽取的质心(即均值差异)决定,而非每个质心周围的局部方差。
-
均值
:
-
协方差
:
- 两个随机变量 (X) 和 (Y) 的协方差定义为 (Cov [X, Y ] \triangleq E[(X - E [X])(Y - E [Y ])] = E [XY ] - E [X] E [Y ])。
-
(D) 维随机向量 (x) 的协方差矩阵定义为 (Cov [x] \triangleq E[(x - E [x])(x - E [x])^T] \triangleq \Sigma),是对称的半正定矩阵,形式如下:
[
\Sigma =
\begin{pmatrix}
V [X_1] & Cov [X_1, X_2] & \cdots & Cov [X_1, X_D] \
Cov [X_2, X_1] & V [X_2] & \cdots & Cov [X_2, X_D] \
\vdots & \vdots & \ddots & \vdots \
Cov [X_D, X_1] & Cov [X_D, X_2] & \cdots & V [X_D]
\end{pmatrix}
]
由此可得 (E[xx^T] = \Sigma + \mu\mu^T)。线性变换的协方差为 (Cov [Ax + b] = A Cov [x] A^T)。两个随机向量的交叉协方差定义为 (Cov [x, y] = E[(x - E [x])(y - E [y])^T])。
概率与随机变量知识详解
5. 总结与应用示例
-
知识总结
:
- 概率基础涵盖互斥事件概率、条件概率和条件独立性等概念,这些是理解随机现象的基石。
- 随机变量分为离散和连续两种类型,分别有对应的概率质量函数(pmf)和概率密度函数(pdf),以及累积分布函数(cdf)和分位数等重要概念。
- 相关随机变量集合涉及联合、边缘和条件分布,贝叶斯规则在从观测数据估计未知变量中发挥关键作用,独立性和条件独立性有助于简化复杂的概率模型。
- 分布的性质包括矩(均值、方差、众数、条件矩)和协方差,这些指标用于描述分布的特征和变量之间的关系。
-
应用示例
:
- 风险评估 :在金融领域,可将资产的收益率视为随机变量。通过计算收益率的均值和方差,可以评估投资的预期回报和风险程度。例如,若某股票的收益率均值较高且方差较小,则该股票可能是相对较好的投资选择。
- 医学诊断 :设 (A) 为“患者患有某种疾病”,(B) 为“某种检测结果呈阳性”。已知先验概率 (p(A))(即人群中该疾病的患病率)、似然概率 (p(B|A))(患病时检测呈阳性的概率)和 (p(B|\neg A))(未患病时检测呈阳性的概率),利用贝叶斯规则可以计算后验概率 (p(A|B)),即检测呈阳性时患者实际患病的概率,从而辅助医生进行诊断。
- 信号处理 :在通信系统中,接收到的信号往往受到噪声干扰。可将信号和噪声视为随机变量,通过分析它们的概率分布和协方差等性质,设计合适的滤波器来去除噪声,提高信号的质量。
6. 常见问题解答
为了帮助大家更好地理解概率与随机变量的相关知识,以下是一些常见问题的解答:
|问题|解答|
|----|----|
|如何判断两个事件是否条件独立?|判断事件 (A) 和 (B) 在事件 (C) 条件下是否条件独立,需验证 (p(A|B, C) = p(A|C)) 或 (p(A, B|C) = p(A|C) p(B|C)) 是否成立。若成立,则 (A) 和 (B) 在 (C) 条件下条件独立。|
|离散随机变量和连续随机变量的主要区别是什么?|离散随机变量的取值是有限或可数无限的,用概率质量函数(pmf)描述其概率分布;连续随机变量的取值是实数,用概率密度函数(pdf)描述其概率分布。此外,离散随机变量的概率是对具体取值的概率赋值,而连续随机变量在某一点的概率为 0,需通过积分计算区间的概率。|
|贝叶斯规则在实际应用中有哪些限制?|贝叶斯规则的应用依赖于先验概率的选择,若先验概率不准确,可能导致后验概率的偏差。此外,在复杂问题中,计算似然概率和积分可能非常困难,需要进行近似计算。|
|如何计算随机变量的矩和协方差?|对于离散随机变量,均值 (E [X] = \sum_{x\in X} x p(x)),方差 (V [X] = E[(X - \mu)^2] = \sum_{x\in X} (x - \mu)^2 p(x));对于连续随机变量,均值 (E [X] = \int_{X} x p(x)dx),方差 (V [X] = \int (x - \mu)^2p(x)dx)。协方差 (Cov [X, Y ] = E[(X - E [X])(Y - E [Y ])] = E [XY ] - E [X] E [Y ])。|
7. 进一步学习建议
概率与随机变量是概率论和统计学的核心内容,对于深入学习机器学习、信号处理、金融工程等领域至关重要。以下是一些进一步学习的建议:
-
阅读专业书籍
:推荐阅读《概率论与数理统计》等经典教材,深入学习概率的理论知识和应用方法。
-
实践项目
:通过参与实际项目,如数据分析、机器学习竞赛等,将所学知识应用到实际问题中,提高解决问题的能力。
-
在线课程
:可以在 Coursera、EdX 等在线学习平台上找到相关的课程,跟随专业教师的讲解进行系统学习。
以下是一个学习路径的 mermaid 流程图,帮助大家规划学习过程:
graph LR
A[学习概率基础] --> B[掌握随机变量]
B --> C[理解相关随机变量集合]
C --> D[熟悉分布的性质]
D --> E[应用于实际项目]
E --> F[深入学习高级理论]
希望通过本文的介绍,大家对概率与随机变量有了更深入的理解和认识。在实际应用中,不断探索和实践,将这些知识运用到具体问题中,解决更多的实际难题。
超级会员免费看
24

被折叠的 条评论
为什么被折叠?



