一,标注问题
1,基本定义
通常将源序列 x1,x2,..,xn x 1 , x 2 , . . , x n 映射为标记序列 y1,y2,...,yn y 1 , y 2 , . . . , y n 的问题,称为序列标注问题或者标注问题。
序列对建模的任务就是从训练语料中学习一个函数可以将源序列映射为标记序列的函数。
2,两个经典的标注问题
(1)POS tagging(词性标注)
词性标注的难点在于:
- 词性的歧义。
- 罕见词的存在性,例如那些没在训练语料中出现的词语。
一般解决方法:
- 考虑每个词语词性的统计偏好。
- 利用每个词的上下文信息,上下文信息对一个词的词性有很大的影响。
(2)Named-Entity recognition(命名实体识别)
3,标注问题的学习方法
一般我们会把标注问题看做一个监督学习问题,如下:
(1)判别式模型(条件模型)
- 首先从训练样本中学习一个条件分布 p(y|x) p ( y | x ) ;
- 给一个测试样本x,则预测的标记序列为 f(