【人工智能数学基础】条件概率全面深入解析：从基础到应用_条件概率在人工智能里的应用-优快云博客

条件概率全面深入解析：从基础到应用

一、什么是条件概率？

1.1 核心定义

条件概率是指在已知某个事件发生的条件下，另一个事件发生的概率。用数学语言表达：
$\frac{P(A \cap B)}{P(B)} \quad \text{其中} \quad P(B) > 0$

1.2 通俗理解

“在获得新信息后，重新评估可能性”

就像侦探破案：

开始：所有嫌疑人都有嫌疑（先验概率）
获得线索：发现某人有不在场证明（条件B）
重新评估：该嫌疑人的嫌疑大大降低（条件概率P(A|B)）

好的，我们来深入浅出地讲解条件概率和概率论中一个非常核心且强大的概念——边缘化。

1.3 边缘概率

边缘化，顾名思义，就是把处于“边缘”的、我们不关心的变量从概率模型中“移除”或“积掉”，从而得到我们关心的变量的概率。

它的本质是 “求和” 或 “积分”。

在离散情况下，就是对不关心的变量进行求和。
在连续情况下，就是对不关心的变量进行积分。

1.3.1 简单的例子理解边缘化

假设我们调查一个班级的学生，有两个变量：

性别 (G)：男(M)，女(F)
是否戴眼镜 (E)：是(Y)，否(N)

我们有一个联合概率表：

	戴眼镜 (E=Y)	不戴眼镜 (E=N)	行和 (边缘概率)
男 (G=M)	0.3	0.2	0.5
女 (G=F)	0.4	0.1	0.5
列和 (边缘概率)	0.7	0.3	1.0

现在我们来理解“边缘化”：

问题：我们想知道一个学生戴眼镜的概率 P(E=Y)，但我们不关心他/她的性别。
解决思路：如何“移除”性别这个变量？我们把所有性别情况下“戴眼镜”的概率加起来。
计算过程：
P(E=Y) = P(G=M, E=Y) + P(G=F, E=Y) = 0.3 + 0.4 = 0.7
这就是边缘化！
- 我们对不关心的变量（性别 G）的所有可能取值进行了求和。
- 最终得到的 P(E=Y) = 0.7 被称为 “边缘概率” ，因为它出现在表格的“边缘”（最后一行）。

同理，我们想知道这个班级男生的概率 P(G=M)，我们不关心他是否戴眼镜：
P(G=M) = P(G=M, E=Y) + P(G=M, E=N) = 0.3 + 0.2 = 0.5
这也是一个边缘化的过程，对变量 E 的所有可能取值进行了求和。

1.3.2 边缘概率数学定义与推导

（1）离散情况（全概率公式）

假设有两个离散随机变量 $X$ 和 $Y$ 。

$X$ 的可能取值为 $x_1, x_2, ..., x_m$
$Y$ 的可能取值为 $y_1, y_2, ..., y_n$

那么，从联合概率 $P (X, Y)$ 得到 $X$ 的边缘概率 $P (X)$ 的公式是：
$P(X=x_i) = \sum_{j=1}^{n} P(X=x_i, Y=y_j)$
解释：为了求 $X$ 取某个特定值 $x_i$ 的概率，我们把所有 $Y$ 可能取值下， $X=x_i, Y=y_j)$ 这个事件发生的概率全部加起来。

更一般的，如果我们想求任何一个由 $X$ 决定的事件 $A$ 的概率（比如 $A$ 是 $X > 5$ ），边缘化公式为：
$\sum_{j=1}^{n} P(A, Y=y_j)$
这其实就是我们前面例子中使用的思想。

（2）连续情况（全概率密度公式）

假设有两个连续随机变量 $X$ 和 $Y$ ，它们的联合概率密度函数为 $f_{X,Y}(x, y)$ 。

那么，从联合概率密度得到 X 的边缘概率密度 $f_X(x)$ 的公式是：
$f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) \, dy$
解释：为了求 $X$ 在某个点 $x$ 附近的概率密度，我们把所有可能的 $Y$ 值所对应的联合概率密度“累积”（积分）起来。

同样，求事件 $A$ 的概率：
$\int_{-\infty}^{\infty} P(A, Y=y) \, dy \quad \text{或更严谨地} \quad P(A) = \int_{-\infty}^{\infty} \int_{A} f_{X,Y}(x, y) \, dx \, dy$

1.3.3为什么叫“边缘化”？

这个术语非常形象地描述了它的计算过程。回头看我们最初的表格：

	戴眼镜 (E=Y)	不戴眼镜 (E=N)	行和
男 (G=M)	0.3	0.2	0.5
女 (G=F)	0.4	0.1	0.5
列和	0.7	0.3	1.0

我们通过求和计算出的概率 P(G=M)=0.5 和 P(E=Y)=0.7 都被写在了表格的边缘（最后一行和最后一列）。因此，这个“求和到边缘”的过程就被称为边缘化。

简单来说，边缘化就是一种“抓大放小、聚焦重点”的概率计算技巧。

二、条件概率的预备知识

2.1 基本概率概念

样本空间：所有可能结果的集合

例子：掷骰子的样本空间 = {1,2,3,4,5,6}

事件：样本空间的子集

例子：掷出偶数 = {2,4,6}

概率公理：

非负性： $P (A) \geq 0$
规范性： $P (样本空间) = 1$
可加性：互斥事件的并集概率 = 各事件概率之和

2.2 集合论基础

交集： $\cap B$ （A和B同时发生）
并集： $\cup B$ （A或B至少一个发生）
补集：Aᶜ（A不发生）

2.3 独立事件

事件A和B独立 ⇔ $P (A \cap B) = P (A) P (B)$

独立意味着：知道B发生不影响A的概率

三、条件概率的深入理解

3.1 样本空间的收缩

原始样本空间： $\Omega$
条件样本空间： $B$ （已知 $B$ 发生）
条件概率：在 $B$ 中 $A$ 所占的比例

例子：

全班50人，男生30人，女生20人
戴眼镜的共15人，其中男生10人，女生5人
P(戴眼镜|男生) = 10/30 = 1/3
样本空间从"全班"收缩到"男生"

3.2 条件概率的性质

非负性： $P (A ∣ B) \geq 0$
规范性： $P (B ∣ B) = 1$
可加性：如果 $A_1, A_2,...$ 互斥，则 $P(∪A_i|B) = \sum P(A_i|B)$

3.3 乘法公式

由条件概率定义可得：
$\cap B) = P(B)P(A|B) = P(A)P(B|A)$

推广到多个事件：
$P(A_1 \cap A_2 \cap \cdots \cap A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1 \cap A_2) \cdots P(A_n|A_1 \cap \cdots \cap A_{n-1})$

乘法公式推广到多个事件的详细推导过程

3.3.1 两个事件的乘法公式：

$\cap B) = P(A)P(B|A) = P(B)P(A|B)$

3.3.2 三个事件的乘法公式推导

推导过程：
我们想要证明：
$\cap B \cap C) = P(A)P(B|A)P(C|A \cap B)$
步骤1： 将三个事件的交集看作两个事件的交集
$\cap B \cap C) = P((A \cap B) \cap C)$
步骤2： 对事件 $\cap B)$ 和 $C$ 应用两个事件的乘法公式
$\cap B) \cap C) = P(A \cap B)P(C|A \cap B)$
步骤3： 对 $\cap B)$ 再次应用两个事件的乘法公式
$\cap B) = P(A)P(B|A)$
步骤4： 将步骤3代入步骤2
$\cap B \cap C) = P(A)P(B|A)P(C|A \cap B)$
推导完成！

对称形式：
同理，我们可以得到其他排列形式：
$\cap B \cap C) = P(A)P(C|A)P(B|A \cap C)$
$\cap B \cap C) = P(B)P(A|B)P(C|A \cap B)$
等等。

3.3.3 n个事件的乘法公式推导

目标：
证明对于任意n个事件 $A_1, A_2, ..., A_n$ ：
$P\left(\bigcap_{i=1}^n A_i\right) = P(A_1)P(A_2|A_1)P(A_3|A_1 \cap A_2) \cdots P\left(A_n\left|\bigcap_{i=1}^{n-1} A_i\right.\right)$
数学归纳法证明：
基础情况（n=2）：
$P(A_1 \cap A_2) = P(A_1)P(A_2|A_1)$
这已经由条件概率定义证明。
归纳假设：
假设对于 $n = k$ 个事件，公式成立：
$P\left(\bigcap_{i=1}^k A_i\right) = P(A_1)P(A_2|A_1)P(A_3|A_1 \cap A_2) \cdots P\left(A_k\left|\bigcap_{i=1}^{k-1} A_i\right.\right)$
归纳步骤（证明n=k+1时成立）：
步骤1： 将 $k + 1$ 个事件的交集重新组合
$P\left(\bigcap_{i=1}^{k+1} A_i\right) = P\left(\left(\bigcap_{i=1}^k A_i\right) \cap A_{k+1}\right)$
步骤2： 对 $\bigcap_{i=1}^k A_i$ 和 $A_{k+1}$ 应用两个事件的乘法公式
$P\left(\left(\bigcap_{i=1}^k A_i\right) \cap A_{k+1}\right) = P\left(\bigcap_{i=1}^k A_i\right)P\left(A_{k+1}\left|\bigcap_{i=1}^k A_i\right.\right)$
步骤3： 根据归纳假设，代入 $P\left(\bigcap_{i=1}^k A_i\right)$
$P\left(\bigcap_{i=1}^{k+1} A_i\right) = \left[P(A_1)P(A_2|A_1) \cdots P\left(A_k\left|\bigcap_{i=1}^{k-1} A_i\right.\right)\right]P\left(A_{k+1}\left|\bigcap_{i=1}^k A_i\right.\right)$
步骤4： 整理得到
$P\left(\bigcap_{i=1}^{k+1} A_i\right) = P(A_1)P(A_2|A_1)P(A_3|A_1 \cap A_2) \cdots P\left(A_{k+1}\left|\bigcap_{i=1}^k A_i\right.\right)$
归纳完成！

3.3.4 递推推导方法

另一种更直观的推导：
步骤1： 从条件概率定义出发
$P(A_2|A_1) = \frac{P(A_1 \cap A_2)}{P(A_1)} \Rightarrow P(A_1 \cap A_2) = P(A_1)P(A_2|A_1)$
步骤2： 添加第三个事件
$P(A_3|A_1 \cap A_2) = \frac{P(A_1 \cap A_2 \cap A_3)}{P(A_1 \cap A_2)}$
代入步骤1的结果：
$P(A_3|A_1 \cap A_2) = \frac{P(A_1 \cap A_2 \cap A_3)}{P(A_1)P(A_2|A_1)}$
整理得：
$P(A_1 \cap A_2 \cap A_3) = P(A_1)P(A_2|A_1)P(A_3|A_1 \cap A_2)$
步骤3： 推广到第n个事件
假设前n-1个事件已经处理：
$P\left(\bigcap_{i=1}^{n-1} A_i\right) = P(A_1)P(A_2|A_1) \cdots P\left(A_{n-1}\left|\bigcap_{i=1}^{n-2} A_i\right.\right)$
对于第n个事件：
$P\left(A_n\left|\bigcap_{i=1}^{n-1} A_i\right.\right) = \frac{P\left(\bigcap_{i=1}^n A_i\right)}{P\left(\bigcap_{i=1}^{n-1} A_i\right)}$
代入前n-1个事件的结果：
$P\left(A_n\left|\bigcap_{i=1}^{n-1} A_i\right.\right) = \frac{P\left(\bigcap_{i=1}^n A_i\right)}{P(A_1)P(A_2|A_1) \cdots P\left(A_{n-1}\left|\bigcap_{i=1}^{n-2} A_i\right.\right)}$
整理得：
$P\left(\bigcap_{i=1}^n A_i\right) = P(A_1)P(A_2|A_1) \cdots P\left(A_n\left|\bigcap_{i=1}^{n-1} A_i\right.\right)$

3.3.5重要性质和应用

链式规则
乘法公式本质上是一个链式规则，每个条件概率都依赖于前面所有事件的发生。
与独立性的关系
如果事件相互独立，乘法公式简化为：
$P\left(\bigcap_{i=1}^n A_i\right) = \prod_{i=1}^n P(A_i)$
贝叶斯网络基础
乘法公式是贝叶斯网络中联合概率分解的理论基础。
序贯决策应用
在序贯决策过程中，每个决策都依赖于之前的所有信息和决策结果。
总结
乘法公式推广到多个事件的推导核心思想是：
递归应用：将n个事件的交集逐步分解为两个事件的交集
条件累积：每个新事件的条件概率都累积了前面所有事件的信息
数学严谨性：可以通过数学归纳法严格证明

四、条件概率的延伸应用

4.1 贝叶斯定理

4.1.1 贝叶斯定理概述

公式：
$\frac{P(B|A)P(A)}{P(B)}$

现实应用：

医疗诊断：已知检测准确率和疾病患病率，计算检测阳性时真正患病的概率
垃圾邮件过滤：已知某些关键词在垃圾邮件中出现的概率，计算包含这些关键词的邮件是垃圾邮件的概率
法庭证据：已知DNA匹配概率，计算被告有罪的概率

4.1.2 贝叶斯定理的推导

（1）基础贝叶斯定理推导

已知条件：

条件概率定义： $\frac{P(A \cap B)}{P(B)}$
乘法公式： $\cap B) = P(A)P(B|A) = P(B)P(A|B)$
推导过程：
$\begin{align*} P(A|B) &= \frac{P(A \cap B)}{P(B)} \quad \text{(条件概率定义)} \\ &= \frac{P(B|A)P(A)}{P(B)} \quad \text{(代入乘法公式)} \end{align*}$
最终得到贝叶斯定理：
$\frac{P(B|A)P(A)}{P(B)}$

（2）扩展贝叶斯定理（使用全概率公式）

推导过程：
$\begin{align*} P(A|B) &= \frac{P(B|A)P(A)}{P(B)} \quad \text{(基础贝叶斯)} \\ &= \frac{P(B|A)P(A)}{\sum\limits_{i=1}^n P(B|A_i)P(A_i)} \quad \text{(分母使用全概率公式展开)} \end{align*}$
其中 $A_1, A_2, ..., A_n$ 构成完备事件组。
最终扩展形式：
$P(A_j|B) = \frac{P(B|A_j)P(A_j)}{\sum\limits_{i=1}^n P(B|A_i)P(A_i)}$

4.2 全概率公式

4.2.1 全概率公式概述

公式：
$\sum_{i=1}^{n} P(A|B_i)P(B_i)$
其中 $B_1,...,B_n$ 构成完备事件组

应用场景：

质量控制：产品来自不同生产线，计算总体合格率
市场分析：不同细分市场的购买率，计算整体购买率

4.2.2 全概率公式的推导

（1）离散情况全概率公式推导

已知条件：

事件 $B_1, B_2, ..., B_n$ 构成完备事件组
即： $B_i \cap B_j = \emptyset$ （互斥）且 $\bigcup_{i=1}^n B_i = \Omega$ （完备）

推导过程：
$\begin{align*} A &= A \cap \Omega \quad \text{(任何事件与样本空间的交集等于自身)} \\ &= A \cap \left(\bigcup_{i=1}^n B_i\right) \quad \text{(代入完备性)} \\ &= \bigcup_{i=1}^n (A \cap B_i) \quad \text{(分配律)} \end{align*}$
由于 $B_i$ 互斥，所以 $\cap B_i$ 也互斥，应用概率可加性：
$P\left(\bigcup_{i=1}^n (A \cap B_i)\right) = \sum_{i=1}^n P(A \cap B_i)$
应用乘法公式 $\cap B_i) = P(B_i)P(A|B_i)$ ：
$\sum_{i=1}^n P(B_i)P(A|B_i)$

（2）连续情况全概率公式推导

已知条件：

随机变量 $X$ 有概率密度函数 $f_X(x)$
条件概率 $P (A ∣ X = x)$
推导过程：
$\begin{align*} P(A) &= \int_{-\infty}^{\infty} P(A, X=x) \, dx \quad \text{(边缘概率定义)} \\ &= \int_{-\infty}^{\infty} P(A|X=x)f_X(x) \, dx \quad \text{(条件概率定义)} \end{align*}$

4.3 条件期望

4.3.1 条件期望概述

定义：在给定条件下的随机变量平均值
$\sum_x x P(X=x|Y=y)$
应用：

保险定价：给定年龄、职业等条件，计算期望赔付额
投资决策：给定市场条件，计算资产期望收益

4.3.2 条件期望的推导

（1）离散随机变量的条件期望

定义推导：
$\begin{align*} E[X|Y=y] &= \sum_x x P(X=x|Y=y) \quad \text{(期望的定义)} \\ &= \sum_x x \frac{P(X=x, Y=y)}{P(Y=y)} \quad \text{(条件概率定义)} \\ &= \frac{1}{P(Y=y)} \sum_x x P(X=x, Y=y) \end{align*}$

（2）连续随机变量的条件期望

定义推导：
$\begin{align*} E[X|Y=y] &= \int_{-\infty}^{\infty} x f_{X|Y}(x|y) \, dx \quad \text{(期望的定义)} \\ &= \int_{-\infty}^{\infty} x \frac{f_{X,Y}(x,y)}{f_Y(y)} \, dx \quad \text{(条件概率密度定义)} \\ &= \frac{1}{f_Y(y)} \int_{-\infty}^{\infty} x f_{X,Y}(x,y) \, dx \end{align*}$

（3）条件期望的迭代性质推导

定理： $E [E [X ∣ Y]] = E [X]$
推导过程：
$\begin{align*} E[E[X|Y]] &= \int_{-\infty}^{\infty} E[X|Y=y] f_Y(y) \, dy \quad \text{(期望的定义)} \\ &= \int_{-\infty}^{\infty} \left[\int_{-\infty}^{\infty} x f_{X|Y}(x|y) \, dx\right] f_Y(y) \, dy \\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x f_{X|Y}(x|y) f_Y(y) \, dx \, dy \\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x f_{X,Y}(x,y) \, dx \, dy \quad \text{(联合密度定义)} \\ &= \int_{-\infty}^{\infty} x \left[\int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dy\right] dx \\ &= \int_{-\infty}^{\infty} x f_X(x) \, dx \quad \text{(边缘密度定义)} \\ &= E[X] \end{align*}$

4.4 马尔可夫链

4.4.1 马尔可夫链概述

核心思想：下一状态的概率只依赖于当前状态
$P(X_{n+1} = x | X_1 = x_1, ..., X_n = x_n) = P(X_{n+1} = x | X_n = x_n)$

应用：

天气预测：明天下雨的概率只依赖于今天天气
网页排名：网页重要性的概率传播

4.4.2 马尔可夫链的推导

定义： 随机过程 ${X_n\}$ 具有马尔可夫性质如果：
$P(X_{n+1} = x_{n+1} | X_1 = x_1, ..., X_n = x_n) = P(X_{n+1} = x_{n+1} | X_n = x_n)$
推导转移概率：
$\begin{align*} &P(X_{n+1} = x_{n+1} | X_n = x_n) \\ &= \frac{P(X_{n+1} = x_{n+1}, X_n = x_n)}{P(X_n = x_n)} \quad \text{(条件概率定义)} \\ &= \frac{\sum_{x_1,...,x_{n-1}} P(X_1=x_1,...,X_n=x_n,X_{n+1}=x_{n+1})}{\sum_{x_1,...,x_{n-1}} P(X_1=x_1,...,X_n=x_n)} \quad \text{(边缘化)} \end{align*}$
对于齐次马尔可夫链，转移概率与时间无关：
$P(X_{n+1} = j | X_n = i) = p_{ij}$

4.5 条件独立性

定义：给定 $C$ 时， $A$ 和 $B$ 独立 ⇔ $P(A\cap B|C) = P(A|C)P(B|C)$

应用：

医学研究：在控制年龄因素后，研究吸烟与肺癌的关系
机器学习：朴素贝叶斯分类器假设特征在给定类别下条件独立

4.6 条件方差

4.6.1 条件方差概述

定义：在给定条件下的方差
$Var(X|Y) = E[(X - E[X|Y])^2 | Y]$

应用：

金融风险管理：给定市场条件，计算资产价格波动性
质量控制：给定生产条件，计算产品质量波动

4.6.2 条件方差的推导

（1）条件方差定义推导

定义： $Var(X|Y) = E[(X - E[X|Y])^2|Y]$
推导等价形式：
$\begin{align*} Var(X|Y) &= E[(X - E[X|Y])^2|Y] \\ &= E[X^2|Y] - 2E[X \cdot E[X|Y]|Y] + E[(E[X|Y])^2|Y] \\ &= E[X^2|Y] - 2E[X|Y]E[X|Y] + (E[X|Y])^2 \quad \text{(E[X|Y]在给定Y时是常数)} \\ &= E[X^2|Y] - (E[X|Y])^2 \end{align*}$

（2）全方差定律推导

定理： $Va r (X) = E [Va r (X ∣ Y)] + Va r (E [X ∣ Y])$
推导过程：
$\begin{align*} Var(X) &= E[X^2] - (E[X])^2 \quad \text{(方差定义)} \\ &= E[E[X^2|Y]] - (E[E[X|Y]])^2 \quad \text{(迭代期望)} \\ &= E[Var(X|Y) + (E[X|Y])^2] - (E[E[X|Y]])^2 \quad \text{(条件方差等价形式)} \\ &= E[Var(X|Y)] + E[(E[X|Y])^2] - (E[E[X|Y]])^2 \\ &= E[Var(X|Y)] + Var(E[X|Y]) \quad \text{(方差定义)} \end{align*}$

4.7 条件高斯分布的推导

（1）二元高斯分布的条件分布推导

已知：

随机向量 $(X, Y)$ 服从二元高斯分布
均值向量： $\mu = (\mu_X, \mu_Y)$
协方差矩阵： $\Sigma = \begin{pmatrix} \sigma_X^2 & \rho\sigma_X\sigma_Y \\ \rho\sigma_X\sigma_Y & \sigma_Y^2 \end{pmatrix}$
目标： 求 $f_{X|Y}(x|y)$
推导过程：
步骤1：写出联合概率密度函数
$f_{X,Y}(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left(-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_X)^2}{\sigma_X^2} - 2\rho\frac{(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y} + \frac{(y-\mu_Y)^2}{\sigma_Y^2}\right]\right)$
步骤2：写出边缘概率密度函数 $f_Y(y)$
$f_Y(y) = \frac{1}{\sqrt{2\pi}\sigma_Y} \exp\left(-\frac{(y-\mu_Y)^2}{2\sigma_Y^2}\right)$
步骤3：计算条件概率密度函数
$f_{X|Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}$
代入并化简：
$\begin{align*} f_{X|Y}(x|y) &= \frac{1}{\sqrt{2\pi}\sigma_X\sqrt{1-\rho^2}} \times \\ &\quad \exp\left(-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_X)^2}{\sigma_X^2} - 2\rho\frac{(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y} + \frac{(y-\mu_Y)^2}{\sigma_Y^2} - \frac{(1-\rho^2)(y-\mu_Y)^2}{\sigma_Y^2}\right]\right) \end{align*}$
步骤4：完成平方并识别高斯分布参数
经过代数运算，可以证明：
$f_{X|Y}(x|y) = \frac{1}{\sqrt{2\pi}\sigma_{X|Y}} \exp\left(-\frac{(x - \mu_{X|Y})^2}{2\sigma_{X|Y}^2}\right)$
其中：
条件均值： $\mu_{X|Y} = \mu_X + \rho\frac{\sigma_X}{\sigma_Y}(y - \mu_Y)$
条件方差： $\sigma_{X|Y}^2 = \sigma_X^2(1 - \rho^2)$

（2）多元高斯分布的条件分布推导

已知：

随机向量 $\mathbf{X} = \begin{pmatrix} \mathbf{X}_1 \\ \mathbf{X}_2 \end{pmatrix}$ 服从多元高斯分布
均值向量： $\mu = \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}$
协方差矩阵： $\Sigma = \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix}$
目标： 求 $f_{\mathbf{X}_1|\mathbf{X}_2}(\mathbf{x}_1|\mathbf{x}_2)$
推导过程：
步骤1：使用分块矩阵求逆公式
协方差矩阵的逆可以表示为：
$\Sigma^{-1} = \begin{pmatrix} \Sigma^{11} & \Sigma^{12} \\ \Sigma^{21} & \Sigma^{22} \end{pmatrix}$
其中：
$\Sigma^{11} = (\Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})^{-1}$
$\Sigma^{12} = -\Sigma^{11}\Sigma_{12}\Sigma_{22}^{-1}$
步骤2：写出联合概率密度函数的指数部分
多元高斯分布的指数部分为：
$-\frac{1}{2}(\mathbf{x} - \mu)^T \Sigma^{-1} (\mathbf{x} - \mu)$
步骤3：分离与 $\mathbf{X}_1$ 相关的项
将 $Q$ 展开并分离出与 $\mathbf{x}_1$ 相关的二次项和线性项：
$-\frac{1}{2}\mathbf{x}_1^T \Sigma^{11} \mathbf{x}_1 + \mathbf{x}_1^T (\Sigma^{11}\mu_1 - \Sigma^{12}(\mathbf{x}_2 - \mu_2)) + \text{与 }\mathbf{x}_1\text{ 无关的项}$
步骤4：识别条件分布参数
通过完成平方，可以证明条件分布仍然是高斯分布：
条件均值： $\mu_{1|2} = \mu_1 + \Sigma_{12}\Sigma_{22}^{-1}(\mathbf{x}_2 - \mu_2)$
条件协方差： $\Sigma_{1|2} = \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$