概率图模型:HMM,MEMM,CRF

从HMM到CRF:序列标注模型的演进
本文介绍了序列标注模型从隐马尔科夫模型(HMM)到最大熵马尔科夫模型(MEMM),再到条件随机场(CRF)的发展历程。详细分析了每种模型的基本假设、概率计算方式、训练过程及存在的问题,并对比了它们的优缺点。

HMM(Hidden Markov Moel)是一个有向图模型,为简化求解多随机变量的联合概率分布,做了两个假设:齐次马尔科夫假设和观测独立假设。这两个假设都具有局限性。MEMM(Maximum Entropy Markov Model)舍弃了HMM的观测独立假设,使用了所有上下文的观测值。因此具有更强的表达能力。同时使用最大熵模型对条件概率建模。每个条件概率在局部进行了归一化,这又带来了“label bias”问题。CRF去除了HMM的另一个假设“齐次马尔科夫假设”,使用全局归一化计算联合概率,避免了局部归一化带来的“label bias”的问题。

1 HMM

隐马尔科夫做的两个假设:

  • 齐次马尔科夫假设:当前隐状态的值只受前一隐状态的影响。
  • 观测独立假设:当前的观测值,只与当前时刻的隐状态有关,与其他时刻的隐状态和其他观测变量无关。

在这里插入图片描述

这两个假设都是有局限性的。例如再做词性标注时,当前的词性不仅与当前词有关,与观测的上下文都是有关系的(观测独立假设不合理)。于是引入了最大熵马尔科夫模型(MEMM)。它去除了HMM的观测独立假设,每一时刻的隐状态考虑了整个观测序列,因此表达能力更强。

2 MEMM

MEMM是判别式模型,每一时刻是给定所有观测序列X和上一时刻隐状态下的条件概率分布。并且使用最大熵模型对条件概率建模,所以叫做最大熵马尔科夫模型。MEMM的联合概率分布计算方式:
p(o1o2..on∣x1x2...xn)=∏i=1np(oi∣oi−1,x1x2...xn) p(o_1o_2..o_n|x_1x_2...x_n)=\prod_{i=1}^np(o_i|o_{i-1},x_1x_2...x_n) p(o1o2..onx1x2...xn)=i=1np(oioi1,x1x2...xn)
在这里插入图片描述

其中p(oi∣oi−1,x1x2...xn)p(o_i|o_{i-1},x_1x_2...x_n)p(oioi1,x1x2...xn)会在局部进行归一化,即枚举可能oi的条件概率后求和计算概率。如下:
p(oi∣oi−1,x1x2...xn)=exp(F(oi,oi−1,x1x2...xn))∑oiexp(F(oi,oi−1,x1x2...xn)) p(o_i|o_{i-1},x_1x_2...x_n)=\frac{exp(F(o_i,o_{i-1},x_1x_2...x_n))}{\sum_{o_i}exp(F(o_i,o_{i-1},x_1x_2...x_n))} p(oioi1,x1x2...xn)=oiexp(F(oi,oi1,x1x2

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值