概率图结构学习的贝叶斯方法1——结构概率计算_贝叶斯网络结构学习概率如何算的-优快云博客

本文链接：https://blog.youkuaiyun.com/fenss/article/details/114524562

本文介绍了概率图模型中的贝叶斯网络，特别是结构学习方法K2算法。通过一系列假设，如离散变量、独立数据生成、无缺失值和均匀分布的参数，详细阐述了如何从数据中估计贝叶斯网络结构的概率，并给出了概率计算的公式。最终，通过概率评估公式展示了如何计算给定结构相对于数据的概率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概率图结构学习的贝叶斯方法1——结构概率计算

机器学习中，概率图常用于描述变量之间的依赖关系，其中又分为有向图与无向图。常见的有向图模型有NB（朴素贝叶斯）、HMM、PLSA、LDA等，而这些模型通常需要在变量之间的依赖上加入各种结构性的假设或简化，如NB假设特征变量相互独立、HMM假设状态变量之间的依赖是链式的、PLSA与LDA假设变量之间的生成具有某种层次关系。贝叶斯网络则是一种从数据中学习出变量之间联系（结构）的模型，这篇日志介绍一种经典的贝叶斯网络结构学习方法，称为K2算法，主要参考这篇论文：

A Bayesian Method for the Induction of Probabilistic Networks from Data

考虑有如下数据：

case	$x_1$	$x_2$	$x_3$
1	present	absent	absent
2	present	present	present
3	absent	absent	present
4	present	present	present
5	absent	absent	absent
6	absent	present	present
7	present	present	present
8	absent	absent	absent
9	present	present	present
10	absent	absent	absent

这里有三个变量 ${x_1, x_2, x_3}$ ，我们知道了这些变量的多次观测值，假如我们需要对某个变量进行预测，就需要首先确定变量之间的依赖关系，一种朴素的想法是：我们可以列出所有可能的依赖关系，即结构，对于给定的结构，我们可以根据数据评估该结构的概率，使用MLE的思想取最大概率的结构作为输出。

把某个结构记为 $B_S$ ，把该结构下所有依赖变量之间的条件概率记为 $B_P$ ，对每个变量 $x_i$ ，我们把它的父变量集合记为 $\pi_i$ ，如果不存在父变量，那么 $P(x_i)$ 是确定的。

为了表示数据的联合概率，这里引用了一个假设：

$P(X_1, X_2, \dotsb, X_n) = \prod_{i = 1}^n{P(X_i| \pi_i)}$

这里 $X_i$ 表示 $x_i$ 的实例， $\pi_i$ 表示 $x_i$ 父变量的实例。这个假设有点像HMM的马尔科夫性质，即一个变量的状态只与上一级父变量的状态有关，与祖先变量（父变量的父变量）无关。直观的理解是，如果祖先变量与当前变量有关，那么直接成为父变量就好了，这是奥卡姆剃刀原则。

对于给定的结构和数据，我们需要计算联合概率：

$P(B_{S_i}, D)$

形式化 $P(B_{S_i}, D)$

上式仅仅是一个最基础的概念，形式化计算还需要作出几个假设：

假设1. 数据中的随机变量（记为 $Z$ ）值是离散的。

这是个非常强的假设，由于有了假设1，每个变量的父变量实例都是离散的，且在父变量实例确定的条件下，变量可以用多项分布去描述，其参数由结构生成。基于这个出发点，可以把结构概率分解为：

$P(B_S, D) = \int_{B_P}{P(D| B_S, B_P)f(B_P| B_S)P(B_S)}\text{d}{B_P}$

假设2. 对于给定的贝叶斯模型，每个数据的生成是独立的。

这个假设比较直观，结构概率变为：

$P(B_S, D) = \int_{B_P}{ \bigg[ \prod_{h = 1}^m{P(C_h| B_S, B_P)} \bigg] f(B_P| B_S)P(B_S) }\text{d}{B_P}$

$C_h$ 即数据中的一个实例。

假设3. 数据中没有缺失值。
假设4. 概率密度函数 $f(B_P| B_S)$ 服从均匀分布。

假设3主要是为了避免出现没有定义的条件概率，假设4是为了使结构->参数的分布计算更简单。

有了这4项假设，我们可以引入几个概念（符号）：

$x_i$ 的父变集合量为 $\pi_i$ ， $\pi_i$ 的取值共有 $q_i$ 种组合，第 $j$ 种记为 $w_{i, j}$
$x_i$ 变量取值有 $r_i$ 种，第 $k$ 种记为 $v_{i, k}$
$N_{i, j, k}$ 为变量 $x_i$ 的取值为 $v_{i, k}$ 、父变量集合 $\pi_i$ 的取值为 $w_{i, j}$ 的样本计数
$N_{i, j}$ 为变量 $x_i$ 的父变量集合 $\pi_i$ 的取值为 $w_{i, j}$ 的样本计数，即 $N_{i, j} = \sum_{k = 1}^{r_i}{N_{i, j, k}}$
$d_{i, h}$ 为变量 $x_i$ 在第 $h$ 个实例的取值
$w_i$ 为 $\pi_i$ 的所有唯一值的集合
$\sigma(i, h)$ 表示 $\pi_i$ 在第 $h$ 个实例上的取值在 $w_i$ 中的索引值
$\theta_{i, j, k}$ 表示条件概率 $P(x_i = v_{i, k}| \pi_i = w_{i, j}, B_P)$
$f(\theta_{i, j, 1}, \theta_{i, j, 2}, \dotsb, \theta_{i, j, r_i})$ 表示 $\theta_{i, j, k}$ 的概率密度函数

由于 $P(B_S)$ 在 $P(B_S, D)$ 的计算中为常数，因此可以移到积分符号外：

$P(B_S, D) = P(B_S)\int_{B_P}{P(D| B_S, B_P)f(B_P| B_S)}\text{d}{B_P}$

进一步有：

$\begin{aligned} P(B_S, D) =& P(B_S)\int_{B_P}{ \bigg[ \prod_{h = 1}^m{P(C_h| B_S, B_P)} \bigg] f(B_P| B_S) }\text{d}{B_P}\\ =& P(B_S)\int_{B_P}{ \bigg[ \prod_{h = 1}^m \prod_{i = 1}^n{ P(x_i = d_{i, h}| \pi_i = w_{i, \sigma(i, h)}, B_P) } \bigg] f(B_P| B_S) }\text{d}{B_P} \end{aligned}$

按值进行重排得到：

$P(B_S, D) = P(B_S)\int_{B_P}{ \bigg[ \prod_{i = 1}^n \prod_{j = 1}^{q_i} \prod_{k = 1}^{r_i}{ P(x_i = v_{i, k}| \pi_i = w_{i, j}, B_P)^{N_{i, j, k}} } \bigg] f(B_P| B_S) }\text{d}{B_P}$

由于：

$f(B_P| B_S) = \prod_{i = 1}^n \prod_{j = 1}^{q_i}{ f(\theta_{i, j, 1}, \theta_{i, j, 2}, \dotsb, \theta_{i, j, r_i}) }$

我们得到：

$\begin{aligned} P(B_S, D) =&\\ & P(B_S)\int \underset{\theta_{i, j, k}}{\dotsb} \int{ \bigg[ \prod_{i = 1}^n \prod_{j = 1}^{q_i} \prod_{k = 1}^{r_i}{ \theta_{i, j, k}^{N_{i, j, k}} } \bigg] \bigg[ \prod_{i = 1}^n \prod_{j = 1}^{q_i}{ f(\theta_{i, j, 1}, \theta_{i, j, 2}, \dotsb, \theta_{i, j, r_i}) } \bigg] }\\ & { \text{d}\theta_{1, 1, 1}, \dotsb, \text{d}\theta_{i, j, k}, \dotsb, \text{d}\theta_{n, q_n, r_n} } \end{aligned}$

改变积分与连乘的顺序可得：

$\begin{aligned} P(B_S, D) =&\\ & P(B_S)\prod_{i = 1}^n \prod_{j = 1}^{q_i} \int \underset{\theta_{i, j, k}}{\dotsb} \int{ \bigg[ \prod_{k = 1}^{r_i} \theta_{i, j, k}^{N_{i, j, k}} \bigg] f(\theta_{i, j, 1}, \theta_{i, j, 2}, \dotsb, \theta_{i, j, r_i}) }\\ & { \text{d}\theta_{i, j, 1}, \text{d}\theta_{i, j, 2}, \dotsb, \text{d}\theta_{i, j, r_i} } \end{aligned}$

根据假设4， $P(B_P| B_S)$ 服从均匀分布，即 $f(\theta_{i, j, 1}, \theta_{i, j, 2}, \dotsb, \theta_{i, j, r_i})$ 为某一常数 $C_{i, j}$ ，且有：

$\int \underset{\theta_{i, j, k}}{\dotsb} \int{C_{i, j}} \text{d}\theta_{i, j, 1}, \dotsb, \text{d}\theta_{i, j, r_i} = 1$

可见这是一个特殊的Dirichlet分布（所有超参数 $\alpha_{r_i} = 1$ ），对Dirichlet函数积分，可得：

$C_{i, j} = (r_i - 1)!$

所以有：

$\begin{aligned} P(B_S, D) &=& P(B_S)\prod_{i = 1}^n \prod_{j = 1}^{q_i} \int \underset{\theta_{i, j, k}}{\dotsb} \int{ \bigg[ \prod_{k = 1}^{r_i} \theta_{i, j, k}^{N_{i, j, k}} \bigg] (r_i - 1)! } { \text{d}\theta_{i, j, 1}, \text{d}\theta_{i, j, 2}, \dotsb, \text{d}\theta_{i, j, r_i} }\\ &=& P(B_S)\prod_{i = 1}^n \prod_{j = 1}^{q_i} (r_i - 1)! \int \underset{\theta_{i, j, k}}{\dotsb} \int{ \bigg[ \prod_{k = 1}^{r_i} \theta_{i, j, k}^{N_{i, j, k}} \bigg] } { \text{d}\theta_{i, j, 1}, \text{d}\theta_{i, j, 2}, \dotsb, \text{d}\theta_{i, j, r_i} } \end{aligned}$

观察：

$\int \underset{\theta_{i, j, k}}{\dotsb} \int{ \bigg[ \prod_{k = 1}^{r_i} \theta_{i, j, k}^{N_{i, j, k}} \bigg] } { \text{d}\theta_{i, j, 1}, \text{d}\theta_{i, j, 2}, \dotsb, \text{d}\theta_{i, j, r_i} }$