15、自然语言处理核心概念解析

最新推荐文章于 2025-12-08 16:00:18 发布

rust6ferris

最新推荐文章于 2025-12-08 16:00:18 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP与机器学习入门指南文章标签：自然语言处理词干提取词形还原

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/152431237

NLP与机器学习入门指南专栏收录该内容

62 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

                    
                     自然语言处理核心概念解析  
 1. 词干提取和词形还原  
  过度词干提取和提取不足  ：过度词干提取指把一个词截取过多，可能导致不相关的词有相同的词干。例如，“university”“universities”“universal”“universe”的词干都是“universe”，尽管这些词含义不同。提取不足则相反，即一个词没有被充分“修剪”。比如“data”和“datum”的词干是“dat”，但“date”就不适用这个规则，这说明创建好的词干提取算法并不容易。 
  词形还原  ：词形还原确定单词是否有相同的词根，会去除单词的屈折词尾。在寻找语料库中每个单词的词根时会涉及WordNet数据库。它能找到单词的基本形式，比如“good”“better”“best”的基本词是“good”。词形还原要确定单词的词典形式，因此需要词性知识。一般来说，创建词形还原器比启发式词干提取器更难，NLTK词形还原器基于WordNet数据库。词形还原也适用于动词时态，如“run”“runs”“running”“ran”都是“run”的变体，不规则动词也是如此。不过，词形还原虽然结果更好，但计算成本更高。 
  注意事项和局限性  ：词干提取和词形还原技术旨在提高召回率，但精度往往会受影响。在非英语语言中，即使与英语看似相关，结果也可能有很大差异。词干可能不是实际的单词，而词形是实际的语言词汇。通常，若追求速度，可使用词干提取；若追求准确性，则使用词形还原。此外，这两种技术适用于印欧语系，但不太适合中文，因为汉字可能由其他两个汉字组合而成，拆分可能改变词义。

会员秒杀 ¥9.9 重磅福利

超级会员免费看