第十四章 概率图模型
此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…
14.1 隐马尔可夫模型
1、概述
-
机器学习最重要任务:根据一些已观察到的证据对感兴趣的未知变量进行估计和推测
-
概率模型提供的描述框架——推断
- 基于可观测变量推出未知变量的条件分布
- 所关心变量集:Y;可观测变量集:O;其他变量集:R
生成式模型:对联合分布P(Y,R,O)P(Y,R,O)P(Y,R,O)建模
判别式模型:对条件分布P(Y,R∣O)P(Y,R|O)P(Y,R∣O)建模
-
概率图模型
- 有向无环图:有向图模型或贝叶斯网
隐马尔可夫模型(Hidden Markov Model, HMM):结构最简单的动态贝叶斯网- 结构信息:Markov Chain(xix_ixi:第i时刻观测值;yiy_iyi:第i时刻系统状态)
P(x1,y1,...,xn,yn)=P(y1)P(x1∣y1)∏i=2nP(yi∣yi−1)P(xi∣yi)P(x_1,y_1,...,x_n,y_n)=P(y_1)P(x_1|y_1)\prod_{i=2}^nP(y_i|y_{i-1})P(x_i|y_i)P(x1,y1,...,xn,yn)=P(y1)P(x1∣y1)i=2∏nP(yi∣yi−1)P(xi∣yi) - 三个参数
状态转移概率:aij=P(yt+1=sj∣yt=si)a_{ij}=P(y_{t+1}=s_j|y_t=s_i)aij=P(yt+1=sj∣yt=si)
输出观测概率:bij=P(xt=oj∣yt=si)b_{ij}=P(x_t=o_j|y_t=s_i)bij=P(xt=oj∣yt=si)
初始状态概率:πi=P(y1=si)\pi_i=P(y_1=s_i)πi=P(y1=si)
- 结构信息:Markov Chain(xix_ixi:第i时刻观测值;yiy_iyi:第i时刻系统状态)
- 无向图:无向图模型或马尔科夫网
- 马尔科夫随机场
- 条件随机场
- 有向无环图:有向图模型或贝叶斯网
14.2 马尔可夫随机场
- 联合概率的定义
P(x)=1Z∏Q∈CψQ(xQ)P(\bm x)=\frac 1 Z\prod_{Q\in\mathcal{C}}\psi_Q(\bm x_Q)P(x)=Z1Q∈C∏ψQ(xQ)
势函数 (因子):定义在变量子集上的非负实函数,用于定义概率分布函数
- 马尔可夫随机场中,多个变量之间的联合概率分布能基于团分解为多个因子的乘积,每个因子只和一个团相关
- 为满足非负性,常用指数函数定义势函数
- 三个性质
全局马尔可夫性:给定两个变量子集的分离集,则这两个变量子集条件独立
局部马尔可夫性:给定某变量的邻接变量,则该变量条件独立与其他变量
成对马尔可夫性:给定所有其他变量,两个非邻接变量条件独立
14.3 条件随机场
1、性质:判别式模型
(y,x)(\bm y,\bm x)(y,x)构成条件随机场:图G的每个变量yvy_vyv都满足Markov性
P(yv∣x,yV−{v})=P(yv∣x,yn(v))P(y_v|\bm x,\bm y_{V-\{v\}})=P(y_v|\bm x,\bm y_{n(v)})P(yv∣x,yV−{v})=P(yv∣x,yn(v))
2、链式条件随机场
- 条件概率定义:
- 定义合适的特征函数
采用转移特征函数
采用状态特征函数
3、共性和区分 - 条件随机场(CRF)和马尔可夫随机场(MRF)都是用团上势函数定义概率
- CRF处理条件概率,MRF处理联合概率
14.4 精确推断
14.4.1 变量消去
- 最直观的精确推断算法
- 例子和基本思路
此时运算能够限制在局部,简化了计算的过程
- 缺点:若需计算多个边际分布,重复使用变量消去将会造成大量冗余计算
14.4.2 信念传播
- 将变量消去法的求和操作看做一个信息传递过程,基本求和操作为
mij(xj)=∑xiψ(xi,xj)∏k∈n(i)/jmki(xi)m_{ij}(x_j)=\sum_{x_i}\psi(x_i,x_j)\prod_{k\in n(i)/j}m_{ki}(x_i)mij(xj)=xi∑ψ(xi,xj)k∈n(i)/j∏mki(xi) - 对于无环图,信念传播的两个步骤:
指定根节点并传播至所有节点;所有节点传至根节点
14.5 近似推断
14.5.1 MCMC采样(使用随机化方法完成近似)
- 基本思路:不算概率分布,直接计算或逼近期望
- MCMC的关键:构造平稳分布为p的Markov链产生样本
平稳条件:p(xt)T(xt−1∣xt)=p(xt−1)T(xt∣xt−1)p(x_t)T(x_{t-1}|x_t)=p(x_{t-1})T(x_t|x_{t-1})p(xt)T(xt−1∣xt)=p(xt−1)T(xt∣xt−1) - Metropolis-Hastings算法(Gibbs采样有时被视为MH的特例)
14.5.2 变分推断(使用确定性近似完成推断)
确定性近似:完成近似推断
14.6 话题模型
- 一族生成有向图模型
代表:LDA(隐狄利克雷分配模型) - LDA从生成式模型角度看待文档和话题:
1.根据参数为α\bm\alphaα的狄利克雷分布随机采样一个话题分布Θt\Theta_tΘt
2.按照如下步骤生成文档中的N个词
(1)根据Θt\Theta_tΘt进行话题指派,得到文档t中词n的话题zt,nz_{t,n}zt,n
(2)根据指派的话题所对应的词频分布βk\bm\beta_kβk随机采样生成词