自然语言处理--HMM.MEMM,CRF(四)

本文介绍了MEMM(最大熵模型)的基本概念及其与HMM的区别。MEMM是一种判别式模型,用于建模条件概率分布。文章详细阐述了MEMM的建模方法,并给出了具体的数学表达式。

MEMM(Maximum-entry Markov models)最大熵模型

好,说完了,HMM,我们来看看MEMM。
MEMM和HMM第一个不同的地方是,HMM是生成式模型,而MEMM是判别式模型,它是对如下概率进行建模:

p(y1,y2,...,yn|x1,x2,...,xn)p(y1,y2,...,yn|x1,x2,...,xn)

具体是建模方法如下:
p(y1,y2,...,yn|x1,x2,...,xn)=i=1np(si|s1,...,si1,,x1,...,xn)=i=1np(si|si1,,x1,...,xn)p(y1,y2,...,yn|x1,x2,...,xn)=∏i=1np(si|s1,...,si−1,,x1,...,xn)=∏i=1np(si|si−1,,x1,...,xn)

第一个等式是链式法则,很容易懂。我们观察第二个等式,发现MEMM做了很HMM很类似的一个假设就是第i个位置的状态仅和第i1i1位置的状态的有关(齐次独立性假设)。
那么p(si|si1,,x1,...,xn)p(si|si−1,,x1,...,xn)再往下怎么弄呢?我们将这一概率形式建模成一个log-linear模型(这又是一段故事了),即:
p(si|si1,x1,...,xn)=exp(w.ϕ(x1,...,xn,i,si1,si)exp(w.ϕ(x1,...,xn,i,si1,s)p(si|si−1,x1,...,xn)=exp(w.ϕ(x1,...,xn,i,si−1,si)∑exp(w.ϕ(x1,...,xn,i,si−1,s′)

(看来还是得说说这个log-linear, 跑不掉的 手动笑哭)
到此,MEMM是建模过程就完成了,参数的估计参见log-linear,
解码,viterbi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值