概率图模型：HMM，MEMM，CRF

从HMM到CRF：序列标注模型的演进

最新推荐文章于 2022-12-02 11:23:06 发布

原创

最新推荐文章于 2022-12-02 11:23:06 发布 · 763 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#hmm #MEMM #CRF

本文介绍了序列标注模型从隐马尔科夫模型(HMM)到最大熵马尔科夫模型(MEMM)，再到条件随机场(CRF)的发展历程。详细分析了每种模型的基本假设、概率计算方式、训练过程及存在的问题，并对比了它们的优缺点。

HMM（Hidden Markov Moel）是一个有向图模型，为简化求解多随机变量的联合概率分布，做了两个假设：齐次马尔科夫假设和观测独立假设。这两个假设都具有局限性。MEMM（Maximum Entropy Markov Model）舍弃了HMM的观测独立假设，使用了所有上下文的观测值。因此具有更强的表达能力。同时使用最大熵模型对条件概率建模。每个条件概率在局部进行了归一化，这又带来了“label bias”问题。CRF去除了HMM的另一个假设“齐次马尔科夫假设”，使用全局归一化计算联合概率，避免了局部归一化带来的“label bias”的问题。

1 HMM

隐马尔科夫做的两个假设：

齐次马尔科夫假设：当前隐状态的值只受前一隐状态的影响。
观测独立假设：当前的观测值，只与当前时刻的隐状态有关，与其他时刻的隐状态和其他观测变量无关。

在这里插入图片描述

这两个假设都是有局限性的。例如再做词性标注时，当前的词性不仅与当前词有关，与观测的上下文都是有关系的（观测独立假设不合理）。于是引入了最大熵马尔科夫模型（MEMM）。它去除了HMM的观测独立假设，每一时刻的隐状态考虑了整个观测序列，因此表达能力更强。

2 MEMM

MEMM是判别式模型，每一时刻是给定所有观测序列X和上一时刻隐状态下的条件概率分布。并且使用最大熵模型对条件概率建模，所以叫做最大熵马尔科夫模型。MEMM的联合概率分布计算方式：
$p(o_1o_2..o_n|x_1x_2...x_n)=\prod_{i=1}^np(o_i|o_{i-1},x_1x_2...x_n)$
在这里插入图片描述

其中 $p(o_i|o_{i-1},x_1x_2...x_n)$ 会在局部进行归一化，即枚举可能oi的条件概率后求和计算概率。如下：
$p(o_i|o_{i-1},x_1x_2...x_n)=\frac{exp(F(o_i,o_{i-1},x_1x_2...x_n))}{\sum_{o_i}exp(F(o_i,o_{i-1},x_1x_2...x_n))}$