条件概率是概率论中的核心概念之一,用于描述在已知某个事件发生的情况下,另一个事件发生的可能性。它构成了现代统计推断、机器学习(如朴素贝叶斯分类器)等领域的理论基础。
一、条件概率的定义
设 $ A $ 和 $ B $ 是两个事件,且 $ P(B) > 0 $,则在事件 $ B $ 发生的条件下,事件 $ A $ 发生的条件概率定义为:
P(A∣B)=P(A∩B)P(B) P(A \mid B) = \frac{P(A \cap B)}{P(B)} P(A∣B)=P(B)P(A∩B)
- 含义:已知 $ B $ 已发生,求 $ A $ 同时发生的概率。
- 注意:$ P(B) > 0 $ 是前提,否则条件概率无意义。
✅ 举例:掷一枚骰子,样本空间 $ \Omega = {1,2,3,4,5,6} $
令 $ A = {偶数} = {2,4,6},\ B = {大于3} = {4,5,6} $
则 $ P(A \cap B) = P({4,6}) = \frac{2}{6} = \frac{1}{3} ,,, P(B) = \frac{3}{6} = \frac{1}{2} $
所以:
P(A∣B)=1/31/2=23 P(A \mid B) = \frac{1/3}{1/2} = \frac{2}{3} P(A∣B)=1/21/3=32
即:已知点数大于3,出现偶数的概率是 $ \frac{2}{3} $
二、三大公式(定理)
1. 乘法公式(Multiplication Rule)
由条件概率定义直接推出:
P(A∩B)=P(B)⋅P(A∣B)(当 P(B)>0)
P(A \cap B) = P(B) \cdot P(A \mid B) \quad (\text{当 } P(B)>0)
P(A∩B)=P(B)⋅P(A∣B)(当 P(B)>0)
或对称地:
P(A∩B)=P(A)⋅P(B∣A)(当 P(A)>0)
P(A \cap B) = P(A) \cdot P(B \mid A) \quad (\text{当 } P(A)>0)
P(A∩B)=P(A)⋅P(B∣A)(当 P(A)>0)
可推广到多个事件(链式法则):
P(A1∩A2∩⋯∩An)=P(A1)⋅P(A2∣A1)⋅P(A3∣A1∩A2)⋯P(An∣A1∩⋯∩An−1) P(A_1 \cap A_2 \cap \cdots \cap A_n) = P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1 \cap A_2) \cdots P(A_n \mid A_1 \cap \cdots \cap A_{n-1}) P(A1∩A2∩⋯∩An)=P(A1)⋅P(A2∣A1)⋅P(A3∣A1∩A2)⋯P(An∣A1∩⋯∩An−1)
✅ 应用场景:抽签不放回、顺序抽取等问题。
2. 全概率公式(Law of Total Probability)
若事件组 $ B_1, B_2, \ldots, B_n $ 构成样本空间的一个划分(即互斥且并集为 $ \Omega $),且每个 $ P(B_i) > 0 $,则对任意事件 $ A $,有:
P(A)=∑i=1nP(Bi)⋅P(A∣Bi) P(A) = \sum_{i=1}^{n} P(B_i) \cdot P(A \mid B_i) P(A)=i=1∑nP(Bi)⋅P(A∣Bi)
- 含义:事件 $ A $ 的总概率等于它在各个“可能原因” $ B_i $ 下的条件概率的加权平均。
- 思想:“先分情况,再综合”。
✅ 图示理解:像一棵树,从不同路径到达 $ A $。
🌰 示例:某工厂由三个车间生产产品,分别占总量 30%、50%、20%,次品率分别为 2%、1%、3%。求任取一件为次品的概率?
解:
P(次品)=0.3×0.02+0.5×0.01+0.2×0.03=0.017 P(\text{次品}) = 0.3 \times 0.02 + 0.5 \times 0.01 + 0.2 \times 0.03 = 0.017 P(次品)=0.3×0.02+0.5×0.01+0.2×0.03=0.017
3. 贝叶斯公式(Bayes’ Theorem)
在全概率基础上反向推理:已知结果 $ A $ 发生,求它是由于某个“原因” $ B_j $ 引起的概率。
公式如下:
P(Bj∣A)=P(Bj)⋅P(A∣Bj)∑i=1nP(Bi)⋅P(A∣Bi)=P(Bj)⋅P(A∣Bj)P(A) P(B_j \mid A) = \frac{P(B_j) \cdot P(A \mid B_j)}{\sum_{i=1}^{n} P(B_i) \cdot P(A \mid B_i)} = \frac{P(B_j) \cdot P(A \mid B_j)}{P(A)} P(Bj∣A)=∑i=1nP(Bi)⋅P(A∣Bi)P(Bj)⋅P(A∣Bj)=P(A)P(Bj)⋅P(A∣Bj)
- 分子:导致 $ A $ 发生的某条路径的概率;
- 分母:所有可能导致 $ A $ 发生的路径总概率(即全概率);
- 结果:后验概率(posterior probability)
贝叶斯思想:根据新信息更新信念
🌰 接上例:若抽到一件次品,问它来自第一个车间的概率?
P(B1∣次品)=0.3×0.020.017≈0.0060.017≈0.353 P(B_1 \mid \text{次品}) = \frac{0.3 \times 0.02}{0.017} \approx \frac{0.006}{0.017} \approx 0.353 P(B1∣次品)=0.0170.3×0.02≈0.0170.006≈0.353
即约 35.3%,虽该车间产量少且次品率不高,但仍有一定贡献。
三、三公式的逻辑关系总结
| 公式 | 功能 | 关键词 |
|---|---|---|
| 条件概率 | 定义基础 | “在…条件下” |
| 乘法公式 | 求联合概率 | “同时发生” |
| 全概率公式 | 正向推导总概率 | “总的来看”、“分情况讨论” |
| 贝叶斯公式 | 逆向推断原因 | “是谁引起的?”、“更新认知” |
它们形成一条完整的推理链条:
原因 → 结果:用全概率
结果 → 原因:用贝叶斯
四、注意事项
- 使用贝叶斯公式前必须确认 $ P(A) > 0 $
- 划分必须完整且互斥($ \bigcup B_i = \Omega,\ B_i \cap B_j = \emptyset $)
- 实际应用中常结合文氏图或树状图辅助分析
树状图(Tree Diagram)是一种直观、有效的工具,用于表示多阶段随机试验中事件的发生路径。它特别适合结合全概率公式和贝叶斯公式进行概率分析,尤其在涉及条件概率、因果推断等问题时非常清晰。
一、树状图的基本结构
- 根节点:起始点,代表初始状态。
- 分支:每条边表示一个可能的事件或结果,边上标注其概率。
- 层级:每一层对应一个阶段(如原因 → 结果)。
- 路径:从根到叶的一条完整路径表示一个联合事件,其概率为各段概率的乘积(乘法公式)。
- 终点(叶子节点):表示最终结果。
二、结合全概率与贝叶斯公式的步骤
✅ 步骤1:构建树状图(按“原因→结果”分层)
假设我们有一个划分 $ B_1, B_2, \ldots, B_n $(即各种“原因”),然后每个原因下可能导致事件 $ A $ 或 $ \bar{A} $(即“结果”)。
开始
/ \
P(B₁) P(B₂)
/ \
+----+ +----+
P(A|B₁) P(A|B₂)
| |
P(A∩B₁)=P(B₁)P(A|B₁) P(A∩B₂)=P(B₂)P(A|B₂)
示例:某疾病检测问题
设:
- $ B_1 $:患病(先验概率 $ P(D) = 0.01 $)
- $ B_2 :未患病(:未患病(:未患病( P(\bar{D}) = 0.99 $)
- 检测结果 $ T^+ :阳性,:阳性,:阳性, T^- $:阴性
- 已知:灵敏度 $ P(T^+ \mid D) = 0.95 $,误报率 $ P(T^+ \mid \bar{D}) = 0.05 $
构建树状图如下:
开始
/ \
P(D)=0.01 P(¬D)=0.99
/ \
P(T⁺|D)=0.95 P(T⁺|¬D)=0.05
P(T⁻|D)=0.05 P(T⁻|¬D)=0.95
展开所有路径:
| 路径 | 联合概率计算 | 含义 |
|---|---|---|
| D → T⁺ | $ 0.01 \times 0.95 = 0.0095 $ | 患病且检测为阳性 |
| D → T⁻ | $ 0.01 \times 0.05 = 0.0005 $ | 患病但检测为阴性(漏诊) |
| ¬D → T⁺ | $ 0.99 \times 0.05 = 0.0495 $ | 未患病但检测为阳性(误诊) |
| ¬D → T⁻ | $ 0.99 \times 0.95 = 0.9405 $ | 正常且检测正常 |
✅ 步骤2:使用全概率公式求总概率
例如,求一个人检测为阳性的总概率 $ P(T^+) $:
P(T+)=P(D∩T+)+P(Dˉ∩T+)=0.0095+0.0495=0.059 P(T^+) = P(D \cap T^+) + P(\bar{D} \cap T^+) = 0.0095 + 0.0495 = 0.059 P(T+)=P(D∩T+)+P(Dˉ∩T+)=0.0095+0.0495=0.059
这就是全概率公式的应用:
P(T+)=P(D)P(T+∣D)+P(Dˉ)P(T+∣Dˉ)
P(T^+) = P(D)P(T^+\mid D) + P(\bar{D})P(T^+\mid \bar{D})
P(T+)=P(D)P(T+∣D)+P(Dˉ)P(T+∣Dˉ)
✅ 步骤3:使用贝叶斯公式反向推断
现在已知某人检测为阳性($ T^+ $),问他真的患病的概率是多少?
即求后验概率 $ P(D \mid T^+) $:
P(D∣T+)=P(D∩T+)P(T+)=0.00950.059≈0.161 P(D \mid T^+) = \frac{P(D \cap T^+)}{P(T^+)} = \frac{0.0095}{0.059} \approx 0.161 P(D∣T+)=P(T+)P(D∩T+)=0.0590.0095≈0.161
👉 即只有约 16.1% 的可能性是真的患病!
这说明即使检测有一定准确性,但由于疾病稀有(先验低),大多数阳性结果其实是假阳性。
三、树状图的优势
| 优点 | 说明 |
|---|---|
| 可视化强 | 清晰展示因果关系和所有可能路径 |
| 避免遗漏 | 所有联合概率都可列出,便于验证总和是否为1 |
| 自然导出公式 | 每条路径是乘法公式;横向加总是全概率;逆向比例是贝叶斯 |
| 教学友好 | 初学者容易理解“为什么后验概率这么小” |
四、实际应用场景
- 医学诊断:根据症状反推病因
- 质量控制:根据产品缺陷反推来自哪个车间
- 垃圾邮件识别:根据关键词判断是否为垃圾邮件(朴素贝叶斯)
- 人工智能决策系统:不确定性推理的基础
✅ 小结流程:
构建树状图
↓
标注各分支概率(先验 + 条件)
↓
计算每条路径的联合概率(乘法公式)
↓
对关注结果的所有路径求和 → 全概率公式
↓
用联合概率除以总概率 → 贝叶斯公式得后验概率



被折叠的 条评论
为什么被折叠?



