自然语言处理核心概念解析
1. 词干提取和词形还原
- 过度词干提取和提取不足 :过度词干提取指把一个词截取过多,可能导致不相关的词有相同的词干。例如,“university”“universities”“universal”“universe”的词干都是“universe”,尽管这些词含义不同。提取不足则相反,即一个词没有被充分“修剪”。比如“data”和“datum”的词干是“dat”,但“date”就不适用这个规则,这说明创建好的词干提取算法并不容易。
- 词形还原 :词形还原确定单词是否有相同的词根,会去除单词的屈折词尾。在寻找语料库中每个单词的词根时会涉及WordNet数据库。它能找到单词的基本形式,比如“good”“better”“best”的基本词是“good”。词形还原要确定单词的词典形式,因此需要词性知识。一般来说,创建词形还原器比启发式词干提取器更难,NLTK词形还原器基于WordNet数据库。词形还原也适用于动词时态,如“run”“runs”“running”“ran”都是“run”的变体,不规则动词也是如此。不过,词形还原虽然结果更好,但计算成本更高。
- 注意事项和局限性 :词干提取和词形还原技术旨在提高召回率,但精度往往会受影响。在非英语语言中,即使与英语看似相关,结果也可能有很大差异。词干可能不是实际的单词,而词形是实际的语言词汇。通常,若追求速度,可使用词干提取;若追求准确性,则使用词形还原。此外,这两种技术适用于印欧语系,但不太适合中文,因为汉字可能由其他两个汉字组合而成,拆分可能改变词义。
超级会员免费看
订阅专栏 解锁全文
8426

被折叠的 条评论
为什么被折叠?



