【人工智能数学基础】深入浅出解析条件概率、全概率公式与贝叶斯公式

深入浅出解析条件概率、全概率公式与贝叶斯公式

一、条件概率:信息如何改变概率

1.1 直观理解

条件概率描述的是 “已知某事件发生,另一事件发生的概率” 。它本质上是 信息更新 对概率判断的影响。

例子:一副扑克牌(52张):

  • 事件A:抽到红桃
  • 事件B:抽到3

P(A) = 13/52 = 1/4
但如果已知抽到的是3(事件B),那么抽到红桃的概率变为:P(A|B) = 1/4(因为4张3中只有1张红桃3)。
而如果已知抽到的是红桃(事件A),那么抽到A的概率变为:P(B|A) = 1/13。

👉 关键:P(A|B) ≠ P(B|A),它们描述的是不同的条件。

1.2 数学定义

P ( B ) > 0 P(B) > 0 P(B)>0,则条件概率定义为:
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B) = \frac{P(A \cap B)}{P(B)} P(AB)=P(B)P(AB)

几何解释将样本空间缩小到B的范围,再看A占B的比例

为什么这样定义?

  • 原始概率: P ( A ) = A 的样本点数 / 总样本点数 P(A) = A的样本点数 / 总样本点数 P(A)=A的样本点数/总样本点数
  • 已知 B B B发生后,总样本点仅限于 B B B,此时 A A A发生的样本点必须是 A ∩ B A\cap B AB
  • 因此, P ( A ∣ B ) = ( A ∩ B 的样本点数 ) / ( B 的样本点数 ) = P ( A ∩ B ) / P ( B ) P(A|B) = (A\cap B的样本点数) / (B的样本点数) = P(A\cap B) / P(B) P(AB)=(AB的样本点数)/(B的样本点数)=P(AB)/P(B)

1.3 重要性质

  • 条件概率也是概率,满足所有概率公理。
  • 链式法则 P ( A ∩ B ) = P ( B ) P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P(A∩B) = P(B)P(A|B) = P(A)P(B|A) P(AB)=P(B)P(AB)=P(A)P(BA),可推广到多个事件。
  • P ( A ∣ B ) 与 P ( A ) P(A|B) 与 P(A) P(AB)P(A)的关系
    • P ( A ∣ B ) > P ( A ) P(A|B) > P(A) P(AB)>P(A),则 B B B的发生使 A A A更可能发生(正相关);
    • P ( A ∣ B ) = P ( A ) P(A|B) = P(A) P(AB)=P(A),则 A A A B B B独立;
    • P ( A ∣ B ) < P ( A ) P(A|B) < P(A) P(AB)<P(A),则 B B B的发生使 A A A更不可能发生(负相关)。

1.4 直观理解&小结

概率是占比,所以一定有除法;

  1. P ( A ) P(A) P(A):事件 A A A发生的概率——> A A A的样本数占总样本数的比例;
  2. P ( A ∣ B ) P(A|B) P(AB):事件 A A A在事件 B B B发生的基础上发生的概率——>也就是说先要发生事件 B B B(缩小范围),概率为 P ( B ) P(B) P(B);再有事件A和事件B同时发生,概率为 P ( A ∩ B ) P(A\cap B) P(AB),所以 P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B) = \frac{P(A \cap B)}{P(B)} P(AB)=P(B)P(AB)
  3. P ( A ∩ B ) P(A\cap B) P(AB):事件 A A A和事件 B B B同时发生——>首先要让其中的一个事件发生,例如事件 A = P ( A ) A=P(A) A=P(A),然后再在此基础上(缩小范围)发生另外一个事件 B B B;所以 P ( A ∩ B ) = P ( A ) ⋅ P ( B ∣ A ) = P ( B ) ⋅ P ( A ∣ B ) P(A\cap B) = P(A) \cdot P(B|A) = P(B) \cdot P(A|B) P(AB)=P(A)P(BA)=P(B)P(AB)
  4. P ( A ∩ B ∩ C ) P(A\cap B \cap C) P(ABC):事件 A A A、事件 B B B和事件 C C C同时发生——>首先发生 A A A B B B两个事件(缩小范围),在此基础上再发生事件 C C C,所以 P ( A ∩ B ∩ C ) = P ( A ) ⋅ P ( B ∣ A ) ⋅ P ( C ∣ A ∩ B ) = P ( B ) ⋅ P ( A ∣ B ) ⋅ P ( C ∣ A ∩ B ) P(A\cap B \cap C) = P(A) \cdot P(B|A) \cdot P(C|A\cap B) = P(B) \cdot P(A|B) \cdot P(C|A\cap B) P(ABC)=P(A)P(BA)P(CAB)=P(B)P(AB)P(CAB),依次类推可以得到链式法则(不断缩小范围);

二、全概率公式:化整为零的分解思想

如果事件组 B 1 , B 2 , … , B n B_1, B_2, …, B_n B1,B2,,Bn 互斥且覆盖整个样本空间(即完备事件组),则对任意事件A:
P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P(A) = \sum_{i=1}^{n} P(B_i) P(A|B_i) P(A)=i=1nP(Bi)P(ABi)

2.1 为什么需要全概率公式?

2.1.1 背景困境

想象你在管理一家电商仓库,商品来自三个供应商:

  • 供应商A提供40%的商品,次品率1%
  • 供应商B提供35%的商品,次品率2%
  • 供应商C提供25%的商品,次品率3%

问题:随机抽检一个商品是次品的概率是多少?

2.1.2 直接计算的困境

你可能会想:“我又不知道具体哪个供应商的商品被抽到,怎么算?”这就是关键——我们无法直接计算,因为次品可能来自任何供应商。

2.1.3 全概率公式的妙招:分而治之

全概率公式的思路是:“别一次性解决,我们先分别考虑每个供应商的情况,再汇总。”

计算过程

  1. 来自A且是次品的概率:0.40 × 0.01 = 0.004
  2. 来自B且是次品的概率:0.35 × 0.02 = 0.007
  3. 来自C且是次品的概率:0.25 × 0.03 = 0.0075

总次品率 = 0.004 + 0.007 + 0.0075 = 0.0185 = 1.85%

公式表达
设事件 A 1 A_1 A1 A 2 A_2 A2 A 3 A_3 A3分别表示商品来自三个供应商,事件B表示“商品是次品”:
P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) + P ( A 2 ) P ( B ∣ A 2 ) + P ( A 3 ) P ( B ∣ A 3 ) P(B) = P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + P(A_3)P(B|A_3) P(B)=P(A1)P(BA1)+P(A2)P(BA2)+P(A3)P(BA3)

2.2 全概率公式的核心价值

当一个问题有多个可能的“原因”或“路径”时,我们无法直接计算结果的概率,但可以分别计算每条路径的概率,然后加总。

就像你知道从北京到上海有多种交通方式(飞机、高铁、汽车),要计算“某人明天到达上海”的概率,你会:

  • 计算他选择飞机的概率 × 飞机准时到达的概率
  • 计算他选择高铁的概率 × 高铁准时到达的概率
  • 计算他选择汽车的概率 × 汽车准时到达的概率
    然后加总。

三、贝叶斯公式:逆概率推理

3.1 为什么需要贝叶斯公式?

3.1.1 背景问题

已知

  • 供应商A供货40%,次品率1%
  • 供应商B供货35%,次品率2%
  • 供应商C供货25%,次品率3%

发现了一个次品,问:这个次品来自供应商A的概率是多少?


3.1.2 一步步自然推导

1. 用最基础的概率思维
我们要求的是:已知是次品,求它来自A的概率。

用数学表示就是: P ( 来自 A ∣ 次品 ) P(来自A | 次品) P(来自A次品)

2. 回到条件概率的定义
条件概率最原始的定义
P ( X ∣ Y ) = P ( X ∩ Y ) P ( Y ) P(X|Y) = \frac{P(X \cap Y)}{P(Y)} P(XY)=P(Y)P(XY)
只要 Y Y Y发生,我们就只看 Y Y Y的情况,看其中 X X X占多少比例。
所以:
P ( 来自A ∣ 次品 ) = P ( 来自A 且 是次品 ) P ( 是次品 ) P(\text{来自A} | \text{次品}) = \frac{P(\text{来自A 且 是次品})}{P(\text{是次品})} P(来自A次品)=P(是次品)P(来自 是次品)
3. 计算分子
"来自A且是次品"的概率怎么算?

  • 首先,商品来自A的概率是40%(0.4)
  • 其次,在来自A的商品中,是次品的概率是1%(0.01)
  • 所以,随机抽一个商品,它"来自A且是次品"的概率 = 0.4 × 0.01 = 0.004

这其实就是乘法公式 P ( A ∩ B ) = P ( A ) × P ( B ∣ A ) P(A∩B) = P(A) × P(B|A) P(AB)=P(A)×P(BA)
4. 计算分母(关键难点)
"是次品"的概率怎么算?
次品可能来自三个途径:

  • 来自A的次品
  • 来自B的次品
  • 来自C的次品

而且这三个事件互斥(一个商品不能同时来自两个供应商),所以:
P ( 次品 ) = P ( 来自A的次品 ) + P ( 来自B的次品 ) + P ( 来自C的次品 ) P(\text{次品}) = P(\text{来自A的次品}) + P(\text{来自B的次品}) + P(\text{来自C的次品}) P(次品)=P(来自A的次品)+P(来自B的次品)+P(来自C的次品)

分别计算:

  • P(来自A的次品) = 0.4 × 0.01 = 0.004
  • P(来自B的次品) = 0.35 × 0.02 = 0.007
  • P(来自C的次品) = 0.25 × 0.03 = 0.0075

所以:
P ( 次品 ) = 0.004 + 0.007 + 0.0075 = 0.0185 P(\text{次品}) = 0.004 + 0.007 + 0.0075 = 0.0185 P(次品)=0.004+0.007+0.0075=0.0185
5. 组合起来
P ( 来自A ∣ 次品 ) = 0.004 0.0185 ≈ 0.2162 P(\text{来自A} | \text{次品}) = \frac{0.004}{0.0185} \approx 0.2162 P(来自A次品)=0.01850.0040.2162


3.1.3 推导过程一般化

我们已经得到了答案。但如果把这个过程一般化:
P ( 来自A ∣ 次品 ) = P ( 来自A ) × P ( 次品 ∣ 来自A ) P ( 来自A ) × P ( 次品 ∣ 来自A ) + P ( 来自B ) × P ( 次品 ∣ 来自B ) + P ( 来自C ) × P ( 次品 ∣ 来自C ) P(\text{来自A} | \text{次品}) = \frac{P(\text{来自A}) \times P(\text{次品}|\text{来自A})}{P(\text{来自A}) \times P(\text{次品}|\text{来自A}) + P(\text{来自B}) \times P(\text{次品}|\text{来自B}) + P(\text{来自C}) \times P(\text{次品}|\text{来自C})} P(来自A次品)=P(来自A)×P(次品来自A)+P(来自B)×P(次品来自B)+P(来自C)×P(次品来自C)P(来自A)×P(次品来自A)

3.1.4 贝叶斯公式的诞生!

更一般地,如果我们有多个可能的原因 A 1 , A 2 , . . . , A n A_1, A_2, ..., A_n A1,A2,...,An,观察到结果 B B B后,想求 P ( A i ∣ B ) P(A_i|B) P(AiB)

  1. 从定义出发: P ( A i ∣ B ) = P ( A i ∩ B ) P ( B ) P(A_i|B) = \frac{P(A_i \cap B)}{P(B)} P(AiB)=P(B)P(AiB)
  2. 分子用乘法公式: P ( A i ∩ B ) = P ( A i ) × P ( B ∣ A i ) P(A_i \cap B) = P(A_i) \times P(B|A_i) P(AiB)=P(Ai)×P(BAi)
  3. 分母用全概率公式: P ( B ) = ∑ j = 1 n P ( A j ) × P ( B ∣ A j ) P(B) = \sum_{j=1}^n P(A_j) \times P(B|A_j) P(B)=j=1nP(Aj)×P(BAj)

于是:
P ( A i ∣ B ) = P ( A i ) × P ( B ∣ A i ) ∑ j = 1 n P ( A j ) × P ( B ∣ A j ) P(A_i|B) = \frac{P(A_i) \times P(B|A_i)}{\sum_{j=1}^n P(A_j) \times P(B|A_j)} P(AiB)=j=1nP(Aj)×P(BAj)P(Ai)×P(BAi)
这就是贝叶斯公式!

3.2 贝叶斯公式的三大组成部分

3.2.1 先验概率 P ( A i ) P(A_i) P(Ai)

在观察任何证据之前,我们对原因 A i A_i Ai的初始信念,也就是产品来自 A i A_i Ai的概率
在我们的例子中: P ( 来自 A ) = 0.4 P(来自A)=0.4 P(来自A)=0.4 P ( 来自 B ) = 0.35 P(来自B)=0.35 P(来自B)=0.35 P ( 来自 C ) = 0.25 P(来自C)=0.25 P(来自C)=0.25

3.2.2 似然 P ( B ∣ A i ) P(B|A_i) P(BAi)

如果原因Aᵢ成立,观察到证据B的可能性,也就是产品来自 A i A_i Ai并且是次品的概率
在我们的例子中: P ( 次品 ∣ 来自 A ) = 0.01 P(次品|来自A)=0.01 P(次品来自A)=0.01 P ( 次品 ∣ 来自 B ) = 0.02 P(次品|来自B)=0.02 P(次品来自B)=0.02 P ( 次品 ∣ 来自 C ) = 0.03 P(次品|来自C)=0.03 P(次品来自C)=0.03

3.2.3 证据 P ( B ) P(B) P(B)

观察到证据B的总概率,也就是产品是次品
在我们的例子中: P ( 次品 ) = 0.0185 P(次品)=0.0185 P(次品)=0.0185

贝叶斯公式实现了 “从结果推原因” 的逆概率计算。

3.3 贝叶斯公式的核心思想

3.3.1 信息更新机制
  1. 先验信念:在没有任何信息时,你认为某个原因的可能性有多大——“产品来自仓库A的概率,产品来自仓库A并且是次品的概率”
  2. 新证据出现:你观察到了某个结果——“产品是次品”
  3. 更新信念:结合证据出现的可能性,修正你对原因的判断——产品是次品并且来自仓库A的概率
3.3.2 公式的哲学意义

后验概率 ∝ 先验概率 × 似然度 \text{后验概率} \propto \text{先验概率} \times \text{似然度} 后验概率先验概率×似然度
“后验概率与先验概率和似然度的乘积成正比”

这个" ∝ ∝ "(正比于)符号很关键,因为分母 P ( B ) P(B) P(B)只是归一化常数,确保所有后验概率之和为1。

如果有多次观测,可以将上一次的后验作为下一次的先验,不断更新:
这种迭代更新正是贝叶斯学习的核心。

3.3.3 贝叶斯公式的核心价值

当观察到结果时,我们需要倒推原因的可能性。贝叶斯公式将先验知识(各供应商供货比例)与新证据(次品率)结合,给出更新的判断。
它就像一台推理机器:输入先验概率和似然度,输出后验概率——告诉我们观察到证据后,应该如何理性地更新对原因的信念。

四、案例:天气预报系统

已知

  • 历史数据显示,下雨的概率 P ( 雨 ) = 0.2 P(雨) = 0.2 P()=0.2(先验概率)
  • 如果会下雨,气象台预报准确的概率 P ( 预报雨 ∣ 真下雨 ) = 0.9 P(预报雨|真下雨) = 0.9 P(预报雨真下雨)=0.9
  • 如果不会下雨,气象台误报的概率 P ( 预报雨 ∣ 不下雨 ) = 0.1 P(预报雨|不下雨) = 0.1 P(预报雨不下雨)=0.1

问题1:某天早上听到预报“今天有雨”,实际上下雨的概率是多少?

第一步(全概率公式):计算预报下雨的总概率
P ( 预报雨 ) = P ( 雨 ) P ( 预报雨 ∣ 雨 ) + P ( 无雨 ) P ( 预报雨 ∣ 无雨 ) = 0.2 × 0.9 + 0.8 × 0.1 = 0.18 + 0.08 = 0.26 P(预报雨) = P(雨)P(预报雨|雨) + P(无雨)P(预报雨|无雨) = 0.2×0.9 + 0.8×0.1 = 0.18+0.08 = 0.26 P(预报雨)=P()P(预报雨)+P(无雨)P(预报雨无雨)=0.2×0.9+0.8×0.1=0.18+0.08=0.26

第二步(贝叶斯公式):计算听到预报后实际下雨的概率
P ( 雨 ∣ 预报雨 ) = P ( 雨 ) P ( 预报雨 ∣ 雨 ) P ( 预报雨 ) = 0.2 × 0.9 0.26 ≈ 0.692 P(雨|预报雨) = \frac{P(雨)P(预报雨|雨)}{P(预报雨)} = \frac{0.2×0.9}{0.26} ≈ 0.692 P(预报雨)=P(预报雨)P()P(预报雨)=0.260.2×0.90.692

信息更新的力量

  • 早上起床时:你认为下雨概率20%(先验)
  • 听到预报后:你更新为下雨概率69.2%(后验)

贝叶斯公式完成了信念的理性更新!


五、全概率公式与贝叶斯公式哲学内涵

5.1 全概率公式:认识论的谦卑

“我们无法直接认识世界的全貌,但可以通过分解为可知的部分来逼近真相。”

就像盲人摸象——虽然每个盲人只摸到一部分,但把所有人的描述汇总,就能得到相对完整的认识。

5.2 贝叶斯公式:学习与进化

“新证据不应该完全推翻旧认知,而应该合理地修正它。”

这就是科学进步的方式:新实验数据不是否定所有旧理论,而是在其基础上更新我们的理解。

5.3 全概率公式与贝叶斯公式总结表格

公式解决的问题思维模式生活类比
全概率公式“总结果的可能性有多大?”分析思维:化整为零,分情况讨论项目预算:各部门花费汇总得总预算
贝叶斯公式“既然结果已发生,原因是什么?”诊断思维:执果索因,更新认知侦探破案:根据线索推测最可能的凶手

六、总结

  • 条件概率是信息更新下的概率计算,核心是样本空间的缩小,链式法则即样本空间不断的缩小
  • 全概率公式通过划分将复杂事件分解。
  • 贝叶斯公式实现逆概率推理,其本质是:
    后验 = 先验 × 似然 证据 \text{后验} = \frac{\text{先验} \times \text{似然}}{\text{证据}} 后验=证据先验×似然
  • 关键洞见:贝叶斯公式不仅是一个数学工具,更是一种 思维方式 —— 如何理性地根据新证据更新信念。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值