1. 什么是新词
现在大部分的分词工具已经做到了准确率高、粒度细,但是对于一些新词(new word)却不能做到很好地识别,比如:
快的打车优惠券
英雄联盟怎么不可以打排位
“快的”、“英雄联盟”应该被作为一个词,却被切成了两个词,失去了原有的语义。未登录词(out-of-vocabulary, OOV)笼统地之未在词典中出现的词,序列标注方法HMM与CRF可以根据上下文很好地识别未登录词,但是这种模型缺乏领域自适应能力 [1]:
模型对训练语料所在领域的语言现象处理可能表现出较好的性能,但一旦超出领域范围或测试集与训练样本有较大差异,模型性能将大幅度下降。例如,在标注的大规模《人民日报》分词语料上训练出来的汉语词语自动切分模型的准确率可达96%左右,甚至更高,但在微博等非规范文本基础上训练出的分词性能至少要低5个百分点左右。在LDC汉语树库上训练出来的句法分析系统准确率可达86%左右,但在非规范网络文本上的分析准确率只有60%左右(宗成庆 2013)。统计模型对领域自适应能力的缺乏严重制约了该方法的应用。
因此,对于“快的”、“英雄联盟”这样最近才出来的词未能识别。我们定义新词为具有基本词汇所没有的新形式、新语义的词语。新词可以视作一种特殊的未登录词;从分词的角度来看,新词一般表现为细粒度切分后相邻词的组合。
本文介绍了新词发现的重要性,特别是针对统计模型在领域适应性方面的局限性。基于统计的新词发现算法通过内部凝固度和自由运用程度来判断新词,其中信息熵起到了关键作用。作者使用此算法对《西游记》和京东商品标题的语料进行实验,发现了一些有意义的新词,但也存在部分误判和脏词。该算法作为强大的基线,适用于不同领域的新词挖掘。
订阅专栏 解锁全文
6862

被折叠的 条评论
为什么被折叠?



