序列标注模型:从MEMM到结构化SVM的深入解析
1. 标签偏差问题
最大熵马尔可夫模型(MEMMs)利用概率链规则将训练标签序列分解为单个标签概率。这种方法虽然便于局部训练分类模型,但存在一个潜在的缺点,即忽略了训练数据中完整标签序列的分布。在测试时,我们希望全局计算标签序列的概率,但训练过程仅考虑局部的单个标签上下文,忽略了完整的标签序列,这可能导致标签序列准确性的错误估计。
1.1 具体示例
假设标签集仅包含四个标签,我们要训练一个一阶模型。给定一个训练集,使用最大似然估计计算相关概率。根据局部模型得出的结果可能与直观观察数据集的结果相矛盾。例如,局部模型可能会高估某些标签序列的概率,而忽略了标签序列分布的实际情况,这种问题被称为标签偏差问题。
1.2 解决方案
解决标签偏差问题的一种方法是训练一个判别模型,将完整的标签序列视为单个单元,在进行模型归一化之前,对输入和输出的完整序列进行统计计算(如特征计数)。
2. 条件随机场(CRF)
条件随机场(CRF)是用于序列标注的对数线性模型,将整个标签序列视为单个单元。
2.1 模型定义
给定输入序列,候选输出序列的概率直接建模为:
[P(y|x)=\frac{\exp(\mathbf{w}\cdot\phi(x,y))}{\sum_{y’\in Y}\exp(\mathbf{w}\cdot\phi(x,y’))}]
其中,(\phi(x,y)) 是表示输入 - 输出对 ((x,y)) 的全局特征向量,(Y) 表示任何可能的标签序列。
超级会员免费看
订阅专栏 解锁全文
971

被折叠的 条评论
为什么被折叠?



