83、图模型学习:技术与应用

图模型学习:技术与应用

1. 图模型学习概述

图模型学习已成为数据挖掘和数据科学的重要组成部分。这里主要聚焦于有向无环图(DAG)的学习,因为大部分研究和应用都集中于此。

1.1 基本定义

  • 有向无环图(DAG) :由一组变量(节点)和它们之间的有向弧组成,沿着弧的方向不会从一个变量回到自身。参数化以表示概率分布的 DAG 就是贝叶斯网络。
  • 马尔可夫条件 :一个 DAG 相对于一个概率分布满足马尔可夫条件,当且仅当对于 DAG 中所有的 $X_i$ 和 $X_j \notin \pi_{X_i}$,只要 $X_j$ 不是 $X_i$ 的后代,就有 $X_i \perp X_j | \pi_{X_i}$。
  • 马尔可夫毯(MB) :节点 $X_i$ 的马尔可夫毯是一个最小的集合 $X_{MB}$,使得模型中所有其他节点 $X_j$ 都满足 $X_i \perp X_j | X_{MB}$。马尔可夫毯由节点的父节点、子节点和子节点的其他父节点组成。

1.2 相关概念符号

符号 描述
$X_i$ 随机变量
$X$ 一组随机变量
${X_i}$ 由 $i \in I$ 索引的一组随机变量
$X = x_j$(或 $x_j$) 随机变量取 $x_j$ 值
$p(x)$ $X = x$ 的概率
$X_A \perp X_B$ $X_A$ 和 $X_B$ 独立(即 $p(X_A) = p(X_A
$X_A \perp X_B X_C$
$X_A \not\perp X_B$ $X_A$ 和 $X_B$ 相关(即 $p(X_A) \neq p(X_A
$X_A \not\perp X_B X_C$
$\pi_{X_i}$ DAG 中 $X_i$ 的父节点集合(即满足 $Y \rightarrow X_i$ 的节点 $Y$)

1.3 学习贝叶斯网络的动机

贝叶斯网络在众多领域取得了巨大成功,如医疗诊断、流行病学等。传统的“知识工程”方法构建贝叶斯网络受限于专业知识的可用性、时间和成本。在有大量数据的领域,自动学习贝叶斯网络的技术应运而生,因果发现已成为数据挖掘的重要子领域。

2. 理论基础

2.1 概率与因果关系

学习贝叶斯网络的关键在于因果依赖和概率依赖之间的关系。以无向变量链为例:
- 共同原因和链 :在图 1a 和 1b 中,给定节点 $C$ 的状态,端节点 $A$ 和 $B$ 在概率上相互独立。
- 共同效应 :在图 1c 中,当 $A$ 和 $B$ 是共同效应 $C$ 的父节点且彼此无关时,在没有信息时它们是概率独立的(即边缘独立),但在知道 $C$ 的状态后变得相关,这种关系称为“解释消除”。

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A1(A):::process --> C1(C):::process
    B1(B):::process --> C1
    subgraph 图 1a: 共同原因
    end

    A2(A):::process --> C2(C):::process
    C2 --> B2(B):::process
    subgraph 图 1b: 因果链
    end

    A3(A):::process --> C3(C):::process
    B3(B):::process --> C3
    subgraph 图 1c: 共同效应
    end

这些概率依赖和因果依赖的关系是学习贝叶斯网络因果结构的关键,样本数据可直接估计概率依赖,不同的条件依赖结构可让自动学习器区分不同的因果模式。除了结构学习,还需要进行参数学习,即学习节点在其父节点取值条件下的条件概率表,常用简单计数方法,在数据有噪声时会使用期望最大化、吉布斯采样等技术。

2.2 统计等价性

两个 DAG 统计等价(或马尔可夫等价),当且仅当它们包含相同的变量,并且每个都可以参数化以表示另一个可以表示的任何概率分布。统计等价的 DAG 具有相同的无向弧结构和相同的未覆盖共同效应集,它们可以用部分有向无环图(PDAG)表示。统计等价的模型相对于任何给定数据集具有相同的最大似然,这使得一些人认为因果学习程序只能学习模式,但实际上有意义的先验信息可以在模式内做出更有效的区分。

3. 学习算法应用

3.1 约束学习器

约束学习器通过对数据进行统计测试来评估变量对之间的条件独立性,消除与统计测试断言的独立性和依赖性不兼容的所有 DAG。以 Verma 和 Pearl 的 IC 算法为例,简化后有以下三个规则:
- 规则 I :当且仅当对于每个满足 $X, Y \notin W$ 的变量集 $W$,都有 $X \not\perp Y | W$ 时,在任意两个变量 $X$ 和 $Y$ 之间放置一条无向链接。
- 规则 II :对于每个无向结构 $X - Y - Z$,当且仅当对于每个满足 $X, Z \notin W$ 且 $Y \in Z$ 的 $W$,都有 $X \not\perp Z | W$ 时,将弧定向为 $X \rightarrow Y \leftarrow Z$。
- 规则 III :检查是否有由于进一步考虑(如避免引入循环或未在规则 II 中识别的未覆盖共同效应)而强制的弧方向。

PC 算法是 IC 算法的实践版本,它增加了正统统计测试来回答条件独立性问题。对于线性模型,使用消失偏相关的统计显著性测试;对于离散网络,使用 $\chi^2$ 测试。Margaritis 和 Thrun 通过将条件集限制为测试变量的马尔可夫毯来提高算法效率。PC 算法是最广泛使用的贝叶斯网络学习器,可在 Weka 和许多贝叶斯网络建模工具中使用。

3.2 度量学习器

约束学习器通过一系列独立的统计测试来构建网络,一个测试的错误结果可能导致后续测试出错。度量学习器则使用一个应用于整个网络的分数来评估它相对于数据的优劣。最早的度量学习器由 Cooper 和 Herskovits 提出,他们在一些强假设下将贝叶斯度量的计算转化为计数问题,得到度量公式:
[P(d, e) = P(d) \prod_{k=1}^{n} \prod_{j=1}^{s^ (k)} \frac{(s_k - 1)!}{(S_{kj} + s_k - 1)!} \prod_{l=1}^{s_k} \alpha_{kjl}!]
其中 $d$ 是要评分的 DAG,$e$ 是数据,$n$ 是变量的数量,$s_k$ 是 $X_k$ 可能取值的数量,$s^
(k)$ 是 $X_k$ 的父节点可能取值的数量,$S_{kj}$ 是数据中 $\pi_{X_k}$ 取第 $j$ 个值的案例数量,$\alpha_{kjl}$ 是 $X_k$ 取第 $l$ 个值且 $\pi_{X_k}$ 取第 $j$ 个值的案例数量。

此后,还发展了多种替代度量,如 BD(带狄利克雷先验的贝叶斯度量)、最小描述长度(MDL)分数、贝叶斯信息准则(BIC)和最小消息长度(MML)等。约束学习器和度量学习器的区别在于处理条件独立性集合的方式,前者是串行处理,后者是集体处理。目前还没有确定哪种学习器更优,也没有关于如何评估的一致意见。

3.3 搜索与复杂度

DAG 的空间随着变量数量呈超指数增长,学习过程是 NP 难的。为了应对搜索复杂度,采用了以下方法:
- 贪心搜索 :PC 算法从完全连接的图开始,贪婪地搜索要移除的弧;Chickering 和 Meek 的贪心等价搜索(GES)在模式空间中操作;Cooper 和 Herskovits 的 K2 算法通过添加弧来增加网络的概率得分。
- 遗传算法(GA) :Larrañaga 等人使用 GA 在总排序空间中最大化 K2 得分;Neil 和 Korb 开发了一个在 DAG 空间中搜索以最大化 MML 得分的 GA。
- 马尔可夫链蒙特卡罗(MCMC)搜索 :Chickering 和 Heckerman 使用吉布斯采样比较不同的度量;Metropolis - Hastings 算法使用 MML 得分估计总排序空间上的后验概率分布。
- 任意时间算法 :Yuan 和 Malone 描述了一种使用度量进行贝叶斯网络发现的任意时间版本的 A 搜索,该算法可以在任何时候停止并给出目前最好的结果。
-
贝叶斯模型平均 *:搜索一组模型并为每个模型分配权重,或者找到一个与平均选择的网络等价的单个贝叶斯网络。

3.4 马尔可夫毯发现

学习单个变量周围的马尔可夫毯是一种特殊的特征选择问题,可帮助处理“大数据”问题。其应用包括:
- 预测 :由于马尔可夫毯使所有其他变量与目标变量条件独立,找到马尔可夫毯就意味着拥有了最优预测所需的所有变量。Koller 和 Sahami 开发了一种近似马尔可夫毯过滤方法用于预测;Saeed 提高了该方法的效率;Tsamardinos 等人描述了用于马尔可夫毯发现的最大 - 最小爬山(MMHC)算法。
- 因果学习 :在马尔可夫毯的简化变量集中进行因果发现,迭代此过程可得到多个因果子网络,然后将它们拼接成一个全局因果网络,如 Aliferis 等人的 HHC 算法。

3.5 贝叶斯网络的知识工程

利用先验信息辅助全局因果发现过程,贝叶斯推理通过结合先验和似然来进行,先验信息不一定是完全无偏的。例如,提供变量的时间层级信息可以极大地促进发现过程。许多发现程序都支持这种简单的先验信息,如 PC 算法允许指定层级,K2 算法需要变量的总排序。Heckerman 等人的方法提供了更复杂的先验信息指定方式,包括指定网络或子网络,并引入了等效样本大小的概念。O’Donnell 等人调整了 MML 得分以允许对层级、依赖关系、直接和间接因果关系以及网络或子网络设置软先验。灵活结合先验信息和数据可以进行全面的知识工程过程,构建和应用贝叶斯网络。

4. 学习图模型的总结与展望

4.1 不同学习器的对比

学习器类型 工作方式 优点 缺点
约束学习器 通过统计测试评估变量对的条件独立性,消除不兼容的 DAG 逻辑清晰,基于条件独立性测试构建网络 一个测试错误可能导致后续错误级联
度量学习器 使用应用于整个网络的分数评估网络与数据的匹配度 整体评估网络,对单个依赖和独立性也敏感

目前没有确定哪种学习器更优,也没有统一的评估方法。不过,它们在数据挖掘和数据分析中都发挥着重要作用。

4.2 应对复杂度的方法总结

为应对 DAG 学习过程中的高复杂度(NP 难问题),采用了多种方法,如下表所示:
| 方法 | 具体操作 | 示例算法 |
| — | — | — |
| 贪心搜索 | 从初始图开始,按一定规则添加或移除弧 | PC 算法、GES 算法、K2 算法 |
| 遗传算法 | 在特定空间中搜索以最大化得分 | Larrañaga 等人的 GA、Neil 和 Korb 的 GA |
| 马尔可夫链蒙特卡罗搜索 | 随机采样模型空间 | Chickering 和 Heckerman 的吉布斯采样、Metropolis - Hastings 算法 |
| 任意时间算法 | 可在任意时间停止并给出当前最优结果 | Yuan 和 Malone 的任意时间 A* 搜索 |
| 贝叶斯模型平均 | 搜索一组模型并分配权重,或找等价网络 | Dash 和 Cooper 的方法 |

4.3 马尔可夫毯发现的重要性

马尔可夫毯发现无论是在预测还是因果学习方面都具有重要意义,其流程如下:

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A(数据):::process --> B(寻找目标变量的马尔可夫毯):::process
    B --> C{应用场景}:::process
    C -->|预测| D(使用回归或其他预测技术):::process
    C -->|因果学习| E(在马尔可夫毯变量集内进行因果发现):::process
    E --> F(迭代得到多个因果子网络):::process
    F --> G(拼接成全局因果网络):::process

4.4 知识工程的价值

在贝叶斯网络构建中,知识工程通过结合先验信息和数据,显著提高了构建效率和网络的实用性。先验信息可以是简单的时间层级信息,也可以是复杂的网络或子网络指定。这种灵活的结合方式使得在面对大数据和复杂问题时,能够更快速、准确地构建和应用贝叶斯网络。

4.5 未来发展方向

虽然在学习图模型方面已经取得了很多进展,但仍有许多问题需要进一步研究。例如,如何更有效地评估不同学习算法的性能,如何更好地利用先验信息,以及如何处理更复杂的数据和模型等。随着数据量的不断增加和应用场景的不断拓展,图模型学习将在数据挖掘和数据科学领域发挥更加重要的作用。

总之,学习图模型是一个充满挑战和机遇的领域,通过不断探索和创新,我们有望开发出更高效、更准确的学习算法和方法,为解决实际问题提供更有力的支持。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值