自然语言处理--HMM.MEMM,CRF(四)

晚照

于 2018-07-01 17:57:03 发布

阅读量196

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/shibianzhu9168/article/details/80875905

本文介绍了MEMM（最大熵模型）的基本概念及其与HMM的区别。MEMM是一种判别式模型，用于建模条件概率分布。文章详细阐述了MEMM的建模方法，并给出了具体的数学表达式。

MEMM(Maximum-entry Markov models)最大熵模型

好，说完了，HMM，我们来看看MEMM。
MEMM和HMM第一个不同的地方是，HMM是生成式模型，而MEMM是判别式模型，它是对如下概率进行建模：

p (y 1, y 2, . . ., y n | x 1, x 2, . . ., x n)

$p(y_1, y_2, ...,y_n|x_1, x_2, ...,x_n)$
具体是建模方法如下：

p (y 1, y 2, . . ., y n | x 1, x 2, . . ., x n) = \prod i = 1 n p (s i | s 1, . . ., s i - 1,, x 1, . . ., x n) = \prod i = 1 n p (s i | s i - 1,, x 1, . . ., x n)

$p(y_1, y_2, ...,y_n|x_1, x_2, ...,x_n) = \prod_{i=1}^n p(s_i|s_1,...,s_{i-1},, x_1,...,x_n) \\ =\prod_{i=1}^n p(s_i|s_{i-1},, x_1,...,x_n)$
第一个等式是链式法则，很容易懂。我们观察第二个等式，发现MEMM做了很HMM很类似的一个假设就是第i个位置的状态仅和第

i1i1 $i_1$ 位置的状态的有关（齐次独立性假设）。
那么

p(si|si−1,,x1,...,xn)p(si|si−1,,x1,...,xn) $p(s_i|s_{i-1},, x_1,...,x_n)$ 再往下怎么弄呢？我们将这一概率形式建模成一个log-linear模型（这又是一段故事了），即：

p (s i | s i - 1, x 1, . . ., x n) = e x p ( w . ϕ ( x 1 , . . . , x n , i , s i - 1 , s i ) \sum e x p ( w . ϕ ( x 1 , . . . , x n , i , s i - 1 , s ' )

$p(s_i|s_{i-1},x_1,...,x_n)=\frac{exp(w.\phi(x_1,...,x_n,i,s_{i-1},s_i)}{\sum exp(w.\phi(x_1,...,x_n,i,s_{i-1},s^{'})}$
(看来还是得说说这个log-linear，跑不掉的手动笑哭)
到此，MEMM是建模过程就完成了，参数的估计参见log-linear，
解码,viterbi

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。