机器学习理论 | 周志华西瓜书第十四章：概率图模型

最新推荐文章于 2025-01-17 18:40:35 发布

原创最新推荐文章于 2025-01-17 18:40:35 发布 · 1.2k 阅读

4 ·

CC 4.0 BY-SA版权

Machine Learning 专栏收录该内容

30 篇文章

订阅专栏

第十四章概率图模型

此系列文章旨在提炼周志华《机器学习》的核心要点，不断完善中…

14.1 隐马尔可夫模型

1、概述

机器学习最重要任务：根据一些已观察到的证据对感兴趣的未知变量进行估计和推测
概率模型提供的描述框架——推断
- 基于可观测变量推出未知变量的条件分布
- 所关心变量集：Y；可观测变量集：O；其他变量集：R
  生成式模型：对联合分布 $P (Y, R, O)$ 建模
  判别式模型：对条件分布 $P (Y, R ∣ O)$ 建模
概率图模型
- 有向无环图：有向图模型或贝叶斯网
  隐马尔可夫模型(Hidden Markov Model, HMM)：结构最简单的动态贝叶斯网
  - 结构信息：Markov Chain（ $x_i$ ：第i时刻观测值； $y_i$ ：第i时刻系统状态）
    
    $P(x1,y1,...,xn,yn)=P(y1)P(x1∣y1)∏i=2nP(yi∣yi−1)P(xi∣yi)P(x_1,y_1,...,x_n,y_n)=P(y_1)P(x_1|y_1)\prod_{i=2}^nP(y_i|y_{i-1})P(x_i|y_i)$
  - 三个参数
    状态转移概率： $a_{ij}=P(y_{t+1}=s_j|y_t=s_i)$
    输出观测概率： $b_{ij}=P(x_t=o_j|y_t=s_i)$
    初始状态概率： $πi=P(y1=si)\pi_i=P(y_1=s_i)$
- 无向图：无向图模型或马尔科夫网
  - 马尔科夫随机场
  - 条件随机场

14.2 马尔可夫随机场

联合概率的定义
$P(x)=1Z∏Q∈CψQ(xQ)P(\bm x)=\frac 1 Z\prod_{Q\in\mathcal{C}}\psi_Q(\bm x_Q)$
势函数（因子）：定义在变量子集上的非负实函数，用于定义概率分布函数

马尔可夫随机场中，多个变量之间的联合概率分布能基于团分解为多个因子的乘积，每个因子只和一个团相关
为满足非负性，常用指数函数定义势函数

三个性质
全局马尔可夫性：给定两个变量子集的分离集，则这两个变量子集条件独立
局部马尔可夫性：给定某变量的邻接变量，则该变量条件独立与其他变量
成对马尔可夫性：给定所有其他变量，两个非邻接变量条件独立

14.3 条件随机场

1、性质：判别式模型
$(y,x)(\bm y,\bm x)$ 构成条件随机场：图G的每个变量 $y_v$ 都满足Markov性
$P(yv∣x,yV−{v})=P(yv∣x,yn(v))P(y_v|\bm x,\bm y_{V-\{v\}})=P(y_v|\bm x,\bm y_{n(v)})$

2、链式条件随机场
在这里插入图片描述

条件概率定义：
定义合适的特征函数
采用转移特征函数

采用状态特征函数

3、共性和区分
条件随机场(CRF)和马尔可夫随机场(MRF)都是用团上势函数定义概率
CRF处理条件概率，MRF处理联合概率

14.4 精确推断

14.4.1 变量消去

最直观的精确推断算法
例子和基本思路

此时运算能够限制在局部，简化了计算的过程

缺点：若需计算多个边际分布，重复使用变量消去将会造成大量冗余计算

14.4.2 信念传播

将变量消去法的求和操作看做一个信息传递过程，基本求和操作为
$mij(xj)=∑xiψ(xi,xj)∏k∈n(i)/jmki(xi)m_{ij}(x_j)=\sum_{x_i}\psi(x_i,x_j)\prod_{k\in n(i)/j}m_{ki}(x_i)$
对于无环图，信念传播的两个步骤：
指定根节点并传播至所有节点；所有节点传至根节点

14.5 近似推断

14.5.1 MCMC采样（使用随机化方法完成近似）

基本思路：不算概率分布，直接计算或逼近期望
MCMC的关键：构造平稳分布为p的Markov链产生样本
平稳条件： $p(x_t)T(x_{t-1}|x_t)=p(x_{t-1})T(x_t|x_{t-1})$
Metropolis-Hastings算法(Gibbs采样有时被视为MH的特例)

14.5.2 变分推断（使用确定性近似完成推断）

确定性近似：完成近似推断

14.6 话题模型

一族生成有向图模型
代表：LDA（隐狄利克雷分配模型）
LDA从生成式模型角度看待文档和话题：
1.根据参数为 $α\bm\alpha$ 的狄利克雷分布随机采样一个话题分布 $Θt\Theta_t$
2.按照如下步骤生成文档中的N个词
（1）根据 $Θt\Theta_t$ 进行话题指派，得到文档t中词n的话题 $z_{t,n}$
（2）根据指派的话题所对应的词频分布 $βk\bm\beta_k$ 随机采样生成词