文章目录
深入浅出解析条件概率、全概率公式与贝叶斯公式
一、条件概率:信息如何改变概率
1.1 直观理解
条件概率描述的是 “已知某事件发生,另一事件发生的概率” 。它本质上是 信息更新 对概率判断的影响。
例子:一副扑克牌(52张):
- 事件A:抽到红桃
- 事件B:抽到3
P(A) = 13/52 = 1/4
但如果已知抽到的是3(事件B),那么抽到红桃的概率变为:P(A|B) = 1/4(因为4张3中只有1张红桃3)。
而如果已知抽到的是红桃(事件A),那么抽到A的概率变为:P(B|A) = 1/13。
👉 关键:P(A|B) ≠ P(B|A),它们描述的是不同的条件。
1.2 数学定义
若
P
(
B
)
>
0
P(B) > 0
P(B)>0,则条件概率定义为:
P
(
A
∣
B
)
=
P
(
A
∩
B
)
P
(
B
)
P(A|B) = \frac{P(A \cap B)}{P(B)}
P(A∣B)=P(B)P(A∩B)
几何解释:将样本空间缩小到B的范围,再看A占B的比例。
为什么这样定义?
- 原始概率: P ( A ) = A 的样本点数 / 总样本点数 P(A) = A的样本点数 / 总样本点数 P(A)=A的样本点数/总样本点数
- 已知 B B B发生后,总样本点仅限于 B B B,此时 A A A发生的样本点必须是 A ∩ B A\cap B A∩B。
- 因此, P ( A ∣ B ) = ( A ∩ B 的样本点数 ) / ( B 的样本点数 ) = P ( A ∩ B ) / P ( B ) P(A|B) = (A\cap B的样本点数) / (B的样本点数) = P(A\cap B) / P(B) P(A∣B)=(A∩B的样本点数)/(B的样本点数)=P(A∩B)/P(B)。
1.3 重要性质
- 条件概率也是概率,满足所有概率公理。
- 链式法则: P ( A ∩ B ) = P ( B ) P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P(A∩B) = P(B)P(A|B) = P(A)P(B|A) P(A∩B)=P(B)P(A∣B)=P(A)P(B∣A),可推广到多个事件。
-
P
(
A
∣
B
)
与
P
(
A
)
P(A|B) 与 P(A)
P(A∣B)与P(A)的关系:
- 若 P ( A ∣ B ) > P ( A ) P(A|B) > P(A) P(A∣B)>P(A),则 B B B的发生使 A A A更可能发生(正相关);
- 若 P ( A ∣ B ) = P ( A ) P(A|B) = P(A) P(A∣B)=P(A),则 A A A与 B B B独立;
- 若 P ( A ∣ B ) < P ( A ) P(A|B) < P(A) P(A∣B)<P(A),则 B B B的发生使 A A A更不可能发生(负相关)。
1.4 直观理解&小结
概率是占比,所以一定有除法;
- P ( A ) P(A) P(A):事件 A A A发生的概率——> A A A的样本数占总样本数的比例;
- P ( A ∣ B ) P(A|B) P(A∣B):事件 A A A在事件 B B B发生的基础上发生的概率——>也就是说先要发生事件 B B B(缩小范围),概率为 P ( B ) P(B) P(B);再有事件A和事件B同时发生,概率为 P ( A ∩ B ) P(A\cap B) P(A∩B),所以 P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B) = \frac{P(A \cap B)}{P(B)} P(A∣B)=P(B)P(A∩B)
- P ( A ∩ B ) P(A\cap B) P(A∩B):事件 A A A和事件 B B B同时发生——>首先要让其中的一个事件发生,例如事件 A = P ( A ) A=P(A) A=P(A),然后再在此基础上(缩小范围)发生另外一个事件 B B B;所以 P ( A ∩ B ) = P ( A ) ⋅ P ( B ∣ A ) = P ( B ) ⋅ P ( A ∣ B ) P(A\cap B) = P(A) \cdot P(B|A) = P(B) \cdot P(A|B) P(A∩B)=P(A)⋅P(B∣A)=P(B)⋅P(A∣B)
- P ( A ∩ B ∩ C ) P(A\cap B \cap C) P(A∩B∩C):事件 A A A、事件 B B B和事件 C C C同时发生——>首先发生 A A A和 B B B两个事件(缩小范围),在此基础上再发生事件 C C C,所以 P ( A ∩ B ∩ C ) = P ( A ) ⋅ P ( B ∣ A ) ⋅ P ( C ∣ A ∩ B ) = P ( B ) ⋅ P ( A ∣ B ) ⋅ P ( C ∣ A ∩ B ) P(A\cap B \cap C) = P(A) \cdot P(B|A) \cdot P(C|A\cap B) = P(B) \cdot P(A|B) \cdot P(C|A\cap B) P(A∩B∩C)=P(A)⋅P(B∣A)⋅P(C∣A∩B)=P(B)⋅P(A∣B)⋅P(C∣A∩B),依次类推可以得到链式法则(不断缩小范围);
二、全概率公式:化整为零的分解思想
如果事件组
B
1
,
B
2
,
…
,
B
n
B_1, B_2, …, B_n
B1,B2,…,Bn 互斥且覆盖整个样本空间(即完备事件组),则对任意事件A:
P
(
A
)
=
∑
i
=
1
n
P
(
B
i
)
P
(
A
∣
B
i
)
P(A) = \sum_{i=1}^{n} P(B_i) P(A|B_i)
P(A)=i=1∑nP(Bi)P(A∣Bi)
2.1 为什么需要全概率公式?
2.1.1 背景困境
想象你在管理一家电商仓库,商品来自三个供应商:
- 供应商A提供40%的商品,次品率1%
- 供应商B提供35%的商品,次品率2%
- 供应商C提供25%的商品,次品率3%
问题:随机抽检一个商品是次品的概率是多少?
2.1.2 直接计算的困境
你可能会想:“我又不知道具体哪个供应商的商品被抽到,怎么算?”这就是关键——我们无法直接计算,因为次品可能来自任何供应商。
2.1.3 全概率公式的妙招:分而治之
全概率公式的思路是:“别一次性解决,我们先分别考虑每个供应商的情况,再汇总。”
计算过程:
- 来自A且是次品的概率:0.40 × 0.01 = 0.004
- 来自B且是次品的概率:0.35 × 0.02 = 0.007
- 来自C且是次品的概率:0.25 × 0.03 = 0.0075
总次品率 = 0.004 + 0.007 + 0.0075 = 0.0185 = 1.85%
公式表达:
设事件
A
1
A_1
A1、
A
2
A_2
A2、
A
3
A_3
A3分别表示商品来自三个供应商,事件B表示“商品是次品”:
P
(
B
)
=
P
(
A
1
)
P
(
B
∣
A
1
)
+
P
(
A
2
)
P
(
B
∣
A
2
)
+
P
(
A
3
)
P
(
B
∣
A
3
)
P(B) = P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + P(A_3)P(B|A_3)
P(B)=P(A1)P(B∣A1)+P(A2)P(B∣A2)+P(A3)P(B∣A3)
2.2 全概率公式的核心价值
当一个问题有多个可能的“原因”或“路径”时,我们无法直接计算结果的概率,但可以分别计算每条路径的概率,然后加总。
就像你知道从北京到上海有多种交通方式(飞机、高铁、汽车),要计算“某人明天到达上海”的概率,你会:
- 计算他选择飞机的概率 × 飞机准时到达的概率
- 计算他选择高铁的概率 × 高铁准时到达的概率
- 计算他选择汽车的概率 × 汽车准时到达的概率
然后加总。
三、贝叶斯公式:逆概率推理
3.1 为什么需要贝叶斯公式?
3.1.1 背景问题
已知:
- 供应商A供货40%,次品率1%
- 供应商B供货35%,次品率2%
- 供应商C供货25%,次品率3%
发现了一个次品,问:这个次品来自供应商A的概率是多少?
3.1.2 一步步自然推导
1. 用最基础的概率思维
我们要求的是:已知是次品,求它来自A的概率。
用数学表示就是: P ( 来自 A ∣ 次品 ) P(来自A | 次品) P(来自A∣次品)
2. 回到条件概率的定义
条件概率最原始的定义:
P
(
X
∣
Y
)
=
P
(
X
∩
Y
)
P
(
Y
)
P(X|Y) = \frac{P(X \cap Y)}{P(Y)}
P(X∣Y)=P(Y)P(X∩Y)
只要
Y
Y
Y发生,我们就只看
Y
Y
Y的情况,看其中
X
X
X占多少比例。
所以:
P
(
来自A
∣
次品
)
=
P
(
来自A 且 是次品
)
P
(
是次品
)
P(\text{来自A} | \text{次品}) = \frac{P(\text{来自A 且 是次品})}{P(\text{是次品})}
P(来自A∣次品)=P(是次品)P(来自A 且 是次品)
3. 计算分子
"来自A且是次品"的概率怎么算?
- 首先,商品来自A的概率是40%(0.4)
- 其次,在来自A的商品中,是次品的概率是1%(0.01)
- 所以,随机抽一个商品,它"来自A且是次品"的概率 = 0.4 × 0.01 = 0.004
这其实就是乘法公式:
P
(
A
∩
B
)
=
P
(
A
)
×
P
(
B
∣
A
)
P(A∩B) = P(A) × P(B|A)
P(A∩B)=P(A)×P(B∣A)
4. 计算分母(关键难点)
"是次品"的概率怎么算?
次品可能来自三个途径:
- 来自A的次品
- 来自B的次品
- 来自C的次品
而且这三个事件互斥(一个商品不能同时来自两个供应商),所以:
P
(
次品
)
=
P
(
来自A的次品
)
+
P
(
来自B的次品
)
+
P
(
来自C的次品
)
P(\text{次品}) = P(\text{来自A的次品}) + P(\text{来自B的次品}) + P(\text{来自C的次品})
P(次品)=P(来自A的次品)+P(来自B的次品)+P(来自C的次品)
分别计算:
- P(来自A的次品) = 0.4 × 0.01 = 0.004
- P(来自B的次品) = 0.35 × 0.02 = 0.007
- P(来自C的次品) = 0.25 × 0.03 = 0.0075
所以:
P
(
次品
)
=
0.004
+
0.007
+
0.0075
=
0.0185
P(\text{次品}) = 0.004 + 0.007 + 0.0075 = 0.0185
P(次品)=0.004+0.007+0.0075=0.0185
5. 组合起来
P
(
来自A
∣
次品
)
=
0.004
0.0185
≈
0.2162
P(\text{来自A} | \text{次品}) = \frac{0.004}{0.0185} \approx 0.2162
P(来自A∣次品)=0.01850.004≈0.2162
3.1.3 推导过程一般化
我们已经得到了答案。但如果把这个过程一般化:
P
(
来自A
∣
次品
)
=
P
(
来自A
)
×
P
(
次品
∣
来自A
)
P
(
来自A
)
×
P
(
次品
∣
来自A
)
+
P
(
来自B
)
×
P
(
次品
∣
来自B
)
+
P
(
来自C
)
×
P
(
次品
∣
来自C
)
P(\text{来自A} | \text{次品}) = \frac{P(\text{来自A}) \times P(\text{次品}|\text{来自A})}{P(\text{来自A}) \times P(\text{次品}|\text{来自A}) + P(\text{来自B}) \times P(\text{次品}|\text{来自B}) + P(\text{来自C}) \times P(\text{次品}|\text{来自C})}
P(来自A∣次品)=P(来自A)×P(次品∣来自A)+P(来自B)×P(次品∣来自B)+P(来自C)×P(次品∣来自C)P(来自A)×P(次品∣来自A)
3.1.4 贝叶斯公式的诞生!
更一般地,如果我们有多个可能的原因 A 1 , A 2 , . . . , A n A_1, A_2, ..., A_n A1,A2,...,An,观察到结果 B B B后,想求 P ( A i ∣ B ) P(A_i|B) P(Ai∣B):
- 从定义出发: P ( A i ∣ B ) = P ( A i ∩ B ) P ( B ) P(A_i|B) = \frac{P(A_i \cap B)}{P(B)} P(Ai∣B)=P(B)P(Ai∩B)
- 分子用乘法公式: P ( A i ∩ B ) = P ( A i ) × P ( B ∣ A i ) P(A_i \cap B) = P(A_i) \times P(B|A_i) P(Ai∩B)=P(Ai)×P(B∣Ai)
- 分母用全概率公式: P ( B ) = ∑ j = 1 n P ( A j ) × P ( B ∣ A j ) P(B) = \sum_{j=1}^n P(A_j) \times P(B|A_j) P(B)=∑j=1nP(Aj)×P(B∣Aj)
于是:
P
(
A
i
∣
B
)
=
P
(
A
i
)
×
P
(
B
∣
A
i
)
∑
j
=
1
n
P
(
A
j
)
×
P
(
B
∣
A
j
)
P(A_i|B) = \frac{P(A_i) \times P(B|A_i)}{\sum_{j=1}^n P(A_j) \times P(B|A_j)}
P(Ai∣B)=∑j=1nP(Aj)×P(B∣Aj)P(Ai)×P(B∣Ai)
这就是贝叶斯公式!
3.2 贝叶斯公式的三大组成部分
3.2.1 先验概率 P ( A i ) P(A_i) P(Ai)
在观察任何证据之前,我们对原因
A
i
A_i
Ai的初始信念,也就是产品来自
A
i
A_i
Ai的概率。
在我们的例子中:
P
(
来自
A
)
=
0.4
P(来自A)=0.4
P(来自A)=0.4,
P
(
来自
B
)
=
0.35
P(来自B)=0.35
P(来自B)=0.35,
P
(
来自
C
)
=
0.25
P(来自C)=0.25
P(来自C)=0.25
3.2.2 似然 P ( B ∣ A i ) P(B|A_i) P(B∣Ai)
如果原因Aᵢ成立,观察到证据B的可能性,也就是产品来自
A
i
A_i
Ai并且是次品的概率。
在我们的例子中:
P
(
次品
∣
来自
A
)
=
0.01
P(次品|来自A)=0.01
P(次品∣来自A)=0.01,
P
(
次品
∣
来自
B
)
=
0.02
P(次品|来自B)=0.02
P(次品∣来自B)=0.02,
P
(
次品
∣
来自
C
)
=
0.03
P(次品|来自C)=0.03
P(次品∣来自C)=0.03
3.2.3 证据 P ( B ) P(B) P(B)
观察到证据B的总概率,也就是产品是次品。
在我们的例子中:
P
(
次品
)
=
0.0185
P(次品)=0.0185
P(次品)=0.0185
贝叶斯公式实现了 “从结果推原因” 的逆概率计算。
3.3 贝叶斯公式的核心思想
3.3.1 信息更新机制
- 先验信念:在没有任何信息时,你认为某个原因的可能性有多大——“产品来自仓库A的概率,产品来自仓库A并且是次品的概率”
- 新证据出现:你观察到了某个结果——“产品是次品”
- 更新信念:结合证据出现的可能性,修正你对原因的判断——产品是次品并且来自仓库A的概率
3.3.2 公式的哲学意义
后验概率
∝
先验概率
×
似然度
\text{后验概率} \propto \text{先验概率} \times \text{似然度}
后验概率∝先验概率×似然度
“后验概率与先验概率和似然度的乘积成正比”
这个" ∝ ∝ ∝"(正比于)符号很关键,因为分母 P ( B ) P(B) P(B)只是归一化常数,确保所有后验概率之和为1。
如果有多次观测,可以将上一次的后验作为下一次的先验,不断更新:
这种迭代更新正是贝叶斯学习的核心。
3.3.3 贝叶斯公式的核心价值
当观察到结果时,我们需要倒推原因的可能性。贝叶斯公式将先验知识(各供应商供货比例)与新证据(次品率)结合,给出更新的判断。
它就像一台推理机器:输入先验概率和似然度,输出后验概率——告诉我们观察到证据后,应该如何理性地更新对原因的信念。
四、案例:天气预报系统
已知:
- 历史数据显示,下雨的概率 P ( 雨 ) = 0.2 P(雨) = 0.2 P(雨)=0.2(先验概率)
- 如果会下雨,气象台预报准确的概率 P ( 预报雨 ∣ 真下雨 ) = 0.9 P(预报雨|真下雨) = 0.9 P(预报雨∣真下雨)=0.9
- 如果不会下雨,气象台误报的概率 P ( 预报雨 ∣ 不下雨 ) = 0.1 P(预报雨|不下雨) = 0.1 P(预报雨∣不下雨)=0.1
问题1:某天早上听到预报“今天有雨”,实际上下雨的概率是多少?
第一步(全概率公式):计算预报下雨的总概率
P
(
预报雨
)
=
P
(
雨
)
P
(
预报雨
∣
雨
)
+
P
(
无雨
)
P
(
预报雨
∣
无雨
)
=
0.2
×
0.9
+
0.8
×
0.1
=
0.18
+
0.08
=
0.26
P(预报雨) = P(雨)P(预报雨|雨) + P(无雨)P(预报雨|无雨) = 0.2×0.9 + 0.8×0.1 = 0.18+0.08 = 0.26
P(预报雨)=P(雨)P(预报雨∣雨)+P(无雨)P(预报雨∣无雨)=0.2×0.9+0.8×0.1=0.18+0.08=0.26
第二步(贝叶斯公式):计算听到预报后实际下雨的概率
P
(
雨
∣
预报雨
)
=
P
(
雨
)
P
(
预报雨
∣
雨
)
P
(
预报雨
)
=
0.2
×
0.9
0.26
≈
0.692
P(雨|预报雨) = \frac{P(雨)P(预报雨|雨)}{P(预报雨)} = \frac{0.2×0.9}{0.26} ≈ 0.692
P(雨∣预报雨)=P(预报雨)P(雨)P(预报雨∣雨)=0.260.2×0.9≈0.692
信息更新的力量
- 早上起床时:你认为下雨概率20%(先验)
- 听到预报后:你更新为下雨概率69.2%(后验)
贝叶斯公式完成了信念的理性更新!
五、全概率公式与贝叶斯公式哲学内涵
5.1 全概率公式:认识论的谦卑
“我们无法直接认识世界的全貌,但可以通过分解为可知的部分来逼近真相。”
就像盲人摸象——虽然每个盲人只摸到一部分,但把所有人的描述汇总,就能得到相对完整的认识。
5.2 贝叶斯公式:学习与进化
“新证据不应该完全推翻旧认知,而应该合理地修正它。”
这就是科学进步的方式:新实验数据不是否定所有旧理论,而是在其基础上更新我们的理解。
5.3 全概率公式与贝叶斯公式总结表格
| 公式 | 解决的问题 | 思维模式 | 生活类比 |
|---|---|---|---|
| 全概率公式 | “总结果的可能性有多大?” | 分析思维:化整为零,分情况讨论 | 项目预算:各部门花费汇总得总预算 |
| 贝叶斯公式 | “既然结果已发生,原因是什么?” | 诊断思维:执果索因,更新认知 | 侦探破案:根据线索推测最可能的凶手 |
六、总结
- 条件概率是信息更新下的概率计算,核心是样本空间的缩小,链式法则即样本空间不断的缩小。
- 全概率公式通过划分将复杂事件分解。
- 贝叶斯公式实现逆概率推理,其本质是:
后验 = 先验 × 似然 证据 \text{后验} = \frac{\text{先验} \times \text{似然}}{\text{证据}} 后验=证据先验×似然 - 关键洞见:贝叶斯公式不仅是一个数学工具,更是一种 思维方式 —— 如何理性地根据新证据更新信念。
23

被折叠的 条评论
为什么被折叠?



