【人工智能数学基础】标准贝叶斯公式的一般化推导:从单一条件到任意多条件

标准贝叶斯公式的一般化推导:从单一条件到任意多条件

1. 标准贝叶斯公式回顾

标准的贝叶斯公式处理两个事件:
P(A∣B)=P(B∣A)P(A)P(B) P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

2. 推导具有三个事件的贝叶斯公式

目标:推导 P(A∣B,C)P(A|B, C)P(AB,C) 的表达式。

步骤1:应用条件概率定义
根据条件概率的定义:
P(A∣B,C)=P(A,B,C)P(B,C) P(A|B, C) = \frac{P(A, B, C)}{P(B, C)} P(AB,C)=P(B,C)P(A,B,C)
这是直接由定义得到的。

步骤2:用另一种方式表示联合概率
同样根据条件概率定义:
P(B∣A,C)=P(A,B,C)P(A,C) P(B|A, C) = \frac{P(A, B, C)}{P(A, C)} P(BA,C)=P(A,C)P(A,B,C)
整理得:
P(A,B,C)=P(B∣A,C)⋅P(A,C) P(A, B, C) = P(B|A, C) \cdot P(A, C) P(A,B,C)=P(BA,C)P(A,C)

步骤3:代入步骤1
将步骤2的结果代入步骤1:
P(A∣B,C)=P(B∣A,C)⋅P(A,C)P(B,C) P(A|B, C) = \frac{P(B|A, C) \cdot P(A, C)}{P(B, C)} P(AB,C)=P(B,C)P(BA,C)P(A,C)
步骤4:进一步分解
P(A,C)P(A, C)P(A,C)P(B,C)P(B, C)P(B,C)分解:

  • P(A,C)=P(A∣C)⋅P(C)P(A, C) = P(A|C) \cdot P(C)P(A,C)=P(AC)P(C)
  • P(B,C)=P(B∣C)⋅P(C)P(B, C) = P(B|C) \cdot P(C)P(B,C)=P(BC)P(C)

代入得:
P(A∣B,C)=P(B∣A,C)⋅P(A∣C)⋅P(C)P(B∣C)⋅P(C) P(A|B, C) = \frac{P(B|A, C) \cdot P(A|C) \cdot P(C)}{P(B|C) \cdot P(C)} P(AB,C)=P(BC)P(C)P(BA,C)P(AC)P(C)
步骤5:简化
约去 P(C)P(C)P(C),得到:
P(A∣B,C)=P(B∣A,C)⋅P(A∣C)P(B∣C) P(A|B, C) = \frac{P(B|A, C) \cdot P(A|C)}{P(B|C)} P(AB,C)=P(BC)P(BA,C)P(AC)

3. 扩展到n个条件

目标:推导 P(A∣B1,B2,…,Bn)P(A|B_1, B_2, \ldots, B_n)P(AB1,B2,,Bn)

步骤1:将所有条件视为一个复合条件
B=(B1,B2,…,Bn)\mathbf{B} = (B_1, B_2, \ldots, B_n)B=(B1,B2,,Bn),则问题转化为求 P(A∣B)P(A|\mathbf{B})P(AB)

步骤2:应用条件概率定义
P(A∣B)=P(A,B)P(B) P(A|\mathbf{B}) = \frac{P(A, \mathbf{B})}{P(\mathbf{B})} P(AB)=P(B)P(A,B)

步骤3:用另一种方式表示联合概率
P(B∣A)=P(A,B)P(A) P(\mathbf{B}|A) = \frac{P(A, \mathbf{B})}{P(A)} P(BA)=P(A)P(A,B)
整理得:
P(A,B)=P(B∣A)⋅P(A) P(A, \mathbf{B}) = P(\mathbf{B}|A) \cdot P(A) P(A,B)=P(BA)P(A)

步骤4:代入并推导(方法一)
代入步骤2:
P(A∣B)=P(B∣A)⋅P(A)P(B) P(A|\mathbf{B}) = \frac{P(\mathbf{B}|A) \cdot P(A)}{P(\mathbf{B})} P(AB)=P(B)P(BA)P(A)
这就是最直接的扩展,但还可以进一步分解。

步骤5:推导条件分解形式(方法二)
更实用的是将部分条件保留在条件概率中。例如,考虑:
P(A∣B1,B2,…,Bn)=P(B1,B2,…,Bn∣A)⋅P(A)P(B1,B2,…,Bn) P(A|B_1, B_2, \ldots, B_n) = \frac{P(B_1, B_2, \ldots, B_n | A) \cdot P(A)}{P(B_1, B_2, \ldots, B_n)} P(AB1,B2,,Bn)=P(B1,B2,,Bn)P(B1,B2,,BnA)P(A)
但通常我们更关心每个条件的影响。

步骤6:递归应用
可以递归地应用贝叶斯公式。例如:
P(A∣B1,B2)=P(B2∣A,B1)⋅P(A∣B1)P(B2∣B1) P(A|B_1, B_2) = \frac{P(B_2|A, B_1) \cdot P(A|B_1)}{P(B_2|B_1)} P(AB1,B2)=P(B2B1)P(B2A,B1)P(AB1)
更一般地:
P(A∣B1,…,Bn)=P(Bn∣A,B1,…,Bn−1)⋅P(A∣B1,…,Bn−1)P(Bn∣B1,…,Bn−1) P(A|B_1, \ldots, B_n) = \frac{P(B_n|A, B_1, \ldots, B_{n-1}) \cdot P(A|B_1, \ldots, B_{n-1})}{P(B_n|B_1, \ldots, B_{n-1})} P(AB1,,Bn)=P(BnB1,,Bn1)P(BnA,B1,,Bn1)P(AB1,,Bn1)

4. 一般形式

定理:对于事件AAA 和条件 B1,B2,…,BnB_1, B_2, \ldots, B_nB1,B2,,Bn,有:
P(A∣B1,…,Bn)=P(Bn∣A,B1,…,Bn−1)⋯P(B2∣A,B1)⋅P(B1∣A)⋅P(A)P(Bn∣B1,…,Bn−1)⋯P(B2∣B1)⋅P(B1) P(A|B_1, \ldots, B_n) = \frac{P(B_n|A, B_1, \ldots, B_{n-1}) \cdots P(B_2|A, B_1) \cdot P(B_1|A) \cdot P(A)}{P(B_n|B_1, \ldots, B_{n-1}) \cdots P(B_2|B_1) \cdot P(B_1)} P(AB1,,Bn)=P(BnB1,,Bn1)P(B2B1)P(B1)P(BnA,B1,,Bn1)P(B2A,B1)P(B1A)P(A)
或者更紧凑地:
P(A∣B1,…,Bn)=P(A)∏k=1nP(Bk∣A,B1,…,Bk−1)∏k=1nP(Bk∣B1,…,Bk−1) P(A|B_1, \ldots, B_n) = \frac{P(A) \prod_{k=1}^n P(B_k|A, B_1, \ldots, B_{k-1})}{\prod_{k=1}^n P(B_k|B_1, \ldots, B_{k-1})} P(AB1,,Bn)=k=1nP(BkB1,,Bk1)P(A)k=1nP(BkA,B1,,Bk1)

5. 在扩散模型中的应用

在扩散模型中,我们通常有固定的条件 x0\mathbf{x}_0x0 和观察到的 xt\mathbf{x}_txt,想推断 xt−1\mathbf{x}_{t-1}xt1
P(xt−1∣xt,x0)=P(xt∣xt−1,x0)⋅P(xt−1∣x0)P(xt∣x0) P(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0) = \frac{P(\mathbf{x}_t|\mathbf{x}_{t-1}, \mathbf{x}_0) \cdot P(\mathbf{x}_{t-1}|\mathbf{x}_0)}{P(\mathbf{x}_t|\mathbf{x}_0)} P(xt1xt,x0)=P(xtx0)P(xtxt1,x0)P(xt1x0)
这正是三个事件情况下贝叶斯公式的直接应用:

  • A=xt−1A = \mathbf{x}_{t-1}A=xt1
  • B=xtB = \mathbf{x}_tB=xt
  • C=x0C = \mathbf{x}_0C=x0

6. 直观理解

一般化的贝叶斯公式告诉我们:

  • 后验概率 P(A∣B1,…,Bn)P(A|B_1, \ldots, B_n)P(AB1,,Bn) 正比于:
    1. 先验概率 P(A)P(A)P(A)
    2. 一系列似然 P(Bk∣A,B1,…,Bk−1)P(B_k|A, B_1, \ldots, B_{k-1})P(BkA,B1,,Bk1)

分母是归一化常数,确保概率和为1。

7. 重要性质

  1. 顺序无关性:条件出现的顺序不影响最终结果(只要乘积顺序相应调整)
  2. 条件独立性简化:如果某些条件在给定A时相互独立,公式可以简化
  3. 马尔可夫性简化:如果具有马尔可夫性质,许多条件可以省略

8. 示例:四个事件的情况

P(A∣B,C,D)P(A|B, C, D)P(AB,C,D)
P(A∣B,C,D)=P(D∣A,B,C)⋅P(C∣A,B)⋅P(B∣A)⋅P(A)P(D∣B,C)⋅P(C∣B)⋅P(B) P(A|B, C, D) = \frac{P(D|A, B, C) \cdot P(C|A, B) \cdot P(B|A) \cdot P(A)}{P(D|B, C) \cdot P(C|B) \cdot P(B)} P(AB,C,D)=P(DB,C)P(CB)P(B)P(DA,B,C)P(CA,B)P(BA)P(A)
或者按另一种顺序:
P(A∣B,C,D)=P(B∣A,C,D)⋅P(C∣A,D)⋅P(D∣A)⋅P(A)P(B∣C,D)⋅P(C∣D)⋅P(D) P(A|B, C, D) = \frac{P(B|A, C, D) \cdot P(C|A, D) \cdot P(D|A) \cdot P(A)}{P(B|C, D) \cdot P(C|D) \cdot P(D)} P(AB,C,D)=P(BC,D)P(CD)P(D)P(BA,C,D)P(CA,D)P(DA)P(A)

总结

标准贝叶斯公式向多条件的扩展是直接的:

  1. 核心思想:将所有额外条件视为背景知识
  2. 形式:P(A∣B,C)=P(B∣A,C)P(A∣C)P(B∣C)P(A|B, C) = \frac{P(B|A, C)P(A|C)}{P(B|C)}P(AB,C)=P(BC)P(BA,C)P(AC)
  3. 递归:可以递归应用到任意多个条件
  4. 应用:在复杂概率模型(如扩散模型)中,这种一般化形式让我们能正确处理多个已知条件下的推断问题
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值