词性标注方法与应用全解析
1. 基于转换的词性标注学习
在词性标注学习中,先验知识的编码方式是学习方法的一个重要特征。基于转换的标注和概率方法在这方面各有优势。
在基于转换的学习中,为最合适的触发环境指定模板,是引导学习者进行良好泛化的有力方式。例如,某些模板看似显而易见,但这是基于我们对句法规则的了解。实际上,还存在大量明显不合适的模板,比如“句子中前一个偶数位置是名词”。
与之相比,概率马尔可夫模型能更精确地编码一个词不同词性的先验可能性。例如,最可能的词性可能是其他词性可能性的十倍,或者仅一点五倍。而在基于转换的标注中,我们能提供给学习者的信息只有哪个词性最有可能。
2. 自动机与转换式词性标注
转换式词性标注虽有规则成分,但也有定量成分。它基于语料库计数进行转换选择,属于统计自然语言处理方法。训练完成后,它就成为纯符号化的方法,可以转换为有限状态转换器。
Roche和Schabes提出的将转换式词性标注器转换为有限状态转换器的算法包含四个步骤:
1. 转换为有限状态 :将每个转换转换为有限状态。
2. 转换为局部扩展 :使转换器的局部扩展在一次处理输入字符串时,效果等同于在输入字符串的每个位置分别运行。例如,对于“如果前两个符号中有一个是C,则将A替换为B”的转换,局部扩展能让一次处理完成正确转换。
3. 组合转换器 :将所有转换器组合成一个单一的转换器,其效果等同于按顺序运行各个转换器。但这个单一转换器通常是非确定性的。
4. 转换为确定
超级会员免费看
订阅专栏 解锁全文
1236

被折叠的 条评论
为什么被折叠?



