机器学习理论 | 周志华西瓜书 第十四章:概率图模型

第十四章 概率图模型

此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…


14.1 隐马尔可夫模型

1、概述

  • 机器学习最重要任务:根据一些已观察到的证据对感兴趣的未知变量进行估计和推测

  • 概率模型提供的描述框架——推断

    • 基于可观测变量推出未知变量的条件分布
    • 所关心变量集:Y;可观测变量集:O;其他变量集:R
      生成式模型:对联合分布P(Y,R,O)P(Y,R,O)P(Y,R,O)建模
      判别式模型:对条件分布P(Y,R∣O)P(Y,R|O)P(Y,RO)建模
  • 概率图模型

    • 有向无环图:有向图模型或贝叶斯网
      隐马尔可夫模型(Hidden Markov Model, HMM):结构最简单的动态贝叶斯网
      • 结构信息:Markov Chain(xix_ixi:第i时刻观测值;yiy_iyi:第i时刻系统状态)
        在这里插入图片描述
        P(x1,y1,...,xn,yn)=P(y1)P(x1∣y1)∏i=2nP(yi∣yi−1)P(xi∣yi)P(x_1,y_1,...,x_n,y_n)=P(y_1)P(x_1|y_1)\prod_{i=2}^nP(y_i|y_{i-1})P(x_i|y_i)P(x1,y1,...,xn,yn)=P(y1)P(x1y1)i=2nP(yiyi1)P(xiyi)
      • 三个参数
        状态转移概率:aij=P(yt+1=sj∣yt=si)a_{ij}=P(y_{t+1}=s_j|y_t=s_i)aij=P(yt+1=sjyt=si)
        输出观测概率:bij=P(xt=oj∣yt=si)b_{ij}=P(x_t=o_j|y_t=s_i)bij=P(xt=ojyt=si)
        初始状态概率:πi=P(y1=si)\pi_i=P(y_1=s_i)πi=P(y1=si)
    • 无向图:无向图模型或马尔科夫网
      • 马尔科夫随机场
      • 条件随机场

14.2 马尔可夫随机场

  • 联合概率的定义
    P(x)=1Z∏Q∈CψQ(xQ)P(\bm x)=\frac 1 Z\prod_{Q\in\mathcal{C}}\psi_Q(\bm x_Q)P(x)=Z1QCψQ(xQ)
    势函数 (因子):定义在变量子集上的非负实函数,用于定义概率分布函数
  • 马尔可夫随机场中,多个变量之间的联合概率分布能基于团分解为多个因子的乘积,每个因子只和一个团相关
  • 为满足非负性,常用指数函数定义势函数
  • 三个性质
    全局马尔可夫性:给定两个变量子集的分离集,则这两个变量子集条件独立
    局部马尔可夫性:给定某变量的邻接变量,则该变量条件独立与其他变量
    成对马尔可夫性:给定所有其他变量,两个非邻接变量条件独立

14.3 条件随机场

1、性质:判别式模型
(y,x)(\bm y,\bm x)(y,x)构成条件随机场:图G的每个变量yvy_vyv都满足Markov性
P(yv∣x,yV−{v})=P(yv∣x,yn(v))P(y_v|\bm x,\bm y_{V-\{v\}})=P(y_v|\bm x,\bm y_{n(v)})P(yvx,yV{v})=P(yvx,yn(v))

2、链式条件随机场
在这里插入图片描述

  • 条件概率定义:
    在这里插入图片描述
  • 定义合适的特征函数
    采用转移特征函数
    在这里插入图片描述
    采用状态特征函数
    在这里插入图片描述
    3、共性和区分
  • 条件随机场(CRF)和马尔可夫随机场(MRF)都是用团上势函数定义概率
  • CRF处理条件概率,MRF处理联合概率

14.4 精确推断

14.4.1 变量消去

  • 最直观的精确推断算法
  • 例子和基本思路
    在这里插入图片描述

此时运算能够限制在局部,简化了计算的过程

  • 缺点:若需计算多个边际分布,重复使用变量消去将会造成大量冗余计算

14.4.2 信念传播

  • 将变量消去法的求和操作看做一个信息传递过程,基本求和操作为
    mij(xj)=∑xiψ(xi,xj)∏k∈n(i)/jmki(xi)m_{ij}(x_j)=\sum_{x_i}\psi(x_i,x_j)\prod_{k\in n(i)/j}m_{ki}(x_i)mij(xj)=xiψ(xi,xj)kn(i)/jmki(xi)
  • 对于无环图,信念传播的两个步骤:
    指定根节点并传播至所有节点;所有节点传至根节点

14.5 近似推断

14.5.1 MCMC采样(使用随机化方法完成近似)

  • 基本思路:不算概率分布,直接计算或逼近期望
  • MCMC的关键:构造平稳分布为p的Markov链产生样本
    平稳条件:p(xt)T(xt−1∣xt)=p(xt−1)T(xt∣xt−1)p(x_t)T(x_{t-1}|x_t)=p(x_{t-1})T(x_t|x_{t-1})p(xt)T(xt1xt)=p(xt1)T(xtxt1)
  • Metropolis-Hastings算法(Gibbs采样有时被视为MH的特例)
    在这里插入图片描述

14.5.2 变分推断(使用确定性近似完成推断)

确定性近似:完成近似推断

14.6 话题模型

  • 一族生成有向图模型
    代表:LDA(隐狄利克雷分配模型)
  • LDA从生成式模型角度看待文档和话题:
    1.根据参数为α\bm\alphaα的狄利克雷分布随机采样一个话题分布Θt\Theta_tΘt
    2.按照如下步骤生成文档中的N个词
    (1)根据Θt\Theta_tΘt进行话题指派,得到文档t中词n的话题zt,nz_{t,n}zt,n
    (2)根据指派的话题所对应的词频分布βk\bm\beta_kβk随机采样生成词
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值