【人工智能数学基础】标准贝叶斯公式的一般化推导：从单一条件到任意多条件

原创已于 2025-12-15 16:17:55 修改 · 505 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #概率论 #机器学习

于 2025-12-15 16:17:50 首次发布

人工智能数学基础专栏收录该内容

9 篇文章

订阅专栏

标准贝叶斯公式的一般化推导：从单一条件到任意多条件

1. 标准贝叶斯公式回顾

标准的贝叶斯公式处理两个事件：
$\frac{P(B|A)P(A)}{P(B)}$

2. 推导具有三个事件的贝叶斯公式

目标：推导 $P (A ∣ B, C)$ 的表达式。

步骤1：应用条件概率定义
根据条件概率的定义：
$\frac{P(A, B, C)}{P(B, C)}$
这是直接由定义得到的。

步骤2：用另一种方式表示联合概率
同样根据条件概率定义：
$\frac{P(A, B, C)}{P(A, C)}$
整理得：
$\cdot P(A, C)$

步骤3：代入步骤1
将步骤2的结果代入步骤1：
$\frac{P(B|A, C) \cdot P(A, C)}{P(B, C)}$
步骤4：进一步分解
将 $P (A, C)$ 和 $P (B, C)$ 分解：

$\cdot P(C)$
$\cdot P(C)$

代入得：
$\frac{P(B|A, C) \cdot P(A|C) \cdot P(C)}{P(B|C) \cdot P(C)}$
步骤5：简化
约去 $P (C)$ ，得到：
$\frac{P(B|A, C) \cdot P(A|C)}{P(B|C)}$

3. 扩展到n个条件

目标：推导 $P(A∣B1,B2,…,Bn)P(A|B_1, B_2, \ldots, B_n)$ 。

步骤1：将所有条件视为一个复合条件
令 $B=(B1,B2,…,Bn)\mathbf{B} = (B_1, B_2, \ldots, B_n)$ ，则问题转化为求 $P(A∣B)P(A|\mathbf{B})$ 。

步骤2：应用条件概率定义
$P(A|\mathbf{B}) = \frac{P(A, \mathbf{B})}{P(\mathbf{B})}$

步骤3：用另一种方式表示联合概率
$P(\mathbf{B}|A) = \frac{P(A, \mathbf{B})}{P(A)}$
整理得：
$\mathbf{B}) = P(\mathbf{B}|A) \cdot P(A)$

步骤4：代入并推导（方法一）
代入步骤2：
$P(A|\mathbf{B}) = \frac{P(\mathbf{B}|A) \cdot P(A)}{P(\mathbf{B})}$
这就是最直接的扩展，但还可以进一步分解。

步骤5：推导条件分解形式（方法二）
更实用的是将部分条件保留在条件概率中。例如，考虑：
$P(A|B_1, B_2, \ldots, B_n) = \frac{P(B_1, B_2, \ldots, B_n | A) \cdot P(A)}{P(B_1, B_2, \ldots, B_n)}$
但通常我们更关心每个条件的影响。

步骤6：递归应用
可以递归地应用贝叶斯公式。例如：
$P(A|B_1, B_2) = \frac{P(B_2|A, B_1) \cdot P(A|B_1)}{P(B_2|B_1)}$
更一般地：
$P(A|B_1, \ldots, B_n) = \frac{P(B_n|A, B_1, \ldots, B_{n-1}) \cdot P(A|B_1, \ldots, B_{n-1})}{P(B_n|B_1, \ldots, B_{n-1})}$

4. 一般形式

定理：对于事件 $A$ 和条件 $B1,B2,…,BnB_1, B_2, \ldots, B_n$ ，有：
$P(A|B_1, \ldots, B_n) = \frac{P(B_n|A, B_1, \ldots, B_{n-1}) \cdots P(B_2|A, B_1) \cdot P(B_1|A) \cdot P(A)}{P(B_n|B_1, \ldots, B_{n-1}) \cdots P(B_2|B_1) \cdot P(B_1)}$
或者更紧凑地：
$P(A|B_1, \ldots, B_n) = \frac{P(A) \prod_{k=1}^n P(B_k|A, B_1, \ldots, B_{k-1})}{\prod_{k=1}^n P(B_k|B_1, \ldots, B_{k-1})}$

5. 在扩散模型中的应用

在扩散模型中，我们通常有固定的条件 $x0\mathbf{x}_0$ 和观察到的 $xt\mathbf{x}_t$ ，想推断 $xt−1\mathbf{x}_{t-1}$ ：
$P(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0) = \frac{P(\mathbf{x}_t|\mathbf{x}_{t-1}, \mathbf{x}_0) \cdot P(\mathbf{x}_{t-1}|\mathbf{x}_0)}{P(\mathbf{x}_t|\mathbf{x}_0)}$
这正是三个事件情况下贝叶斯公式的直接应用：

$\mathbf{x}_{t-1}$
$\mathbf{x}_t$
$\mathbf{x}_0$

6. 直观理解

一般化的贝叶斯公式告诉我们：

后验概率 $P(A∣B1,…,Bn)P(A|B_1, \ldots, B_n)$ 正比于：
1. 先验概率 $P (A)$
2. 一系列似然 $P(Bk∣A,B1,…,Bk−1)P(B_k|A, B_1, \ldots, B_{k-1})$

分母是归一化常数，确保概率和为1。

7. 重要性质

顺序无关性：条件出现的顺序不影响最终结果（只要乘积顺序相应调整）
条件独立性简化：如果某些条件在给定A时相互独立，公式可以简化
马尔可夫性简化：如果具有马尔可夫性质，许多条件可以省略

8. 示例：四个事件的情况

求 $P (A ∣ B, C, D)$ ：
$\frac{P(D|A, B, C) \cdot P(C|A, B) \cdot P(B|A) \cdot P(A)}{P(D|B, C) \cdot P(C|B) \cdot P(B)}$
或者按另一种顺序：
$\frac{P(B|A, C, D) \cdot P(C|A, D) \cdot P(D|A) \cdot P(A)}{P(B|C, D) \cdot P(C|D) \cdot P(D)}$