15、自然语言处理核心概念解析

自然语言处理核心概念解析

1. 词干提取和词形还原
  • 过度词干提取和提取不足 :过度词干提取指把一个词截取过多,可能导致不相关的词有相同的词干。例如,“university”“universities”“universal”“universe”的词干都是“universe”,尽管这些词含义不同。提取不足则相反,即一个词没有被充分“修剪”。比如“data”和“datum”的词干是“dat”,但“date”就不适用这个规则,这说明创建好的词干提取算法并不容易。
  • 词形还原 :词形还原确定单词是否有相同的词根,会去除单词的屈折词尾。在寻找语料库中每个单词的词根时会涉及WordNet数据库。它能找到单词的基本形式,比如“good”“better”“best”的基本词是“good”。词形还原要确定单词的词典形式,因此需要词性知识。一般来说,创建词形还原器比启发式词干提取器更难,NLTK词形还原器基于WordNet数据库。词形还原也适用于动词时态,如“run”“runs”“running”“ran”都是“run”的变体,不规则动词也是如此。不过,词形还原虽然结果更好,但计算成本更高。
  • 注意事项和局限性 :词干提取和词形还原技术旨在提高召回率,但精度往往会受影响。在非英语语言中,即使与英语看似相关,结果也可能有很大差异。词干可能不是实际的单词,而词形是实际的语言词汇。通常,若追求速度,可使用词干提取;若追求准确性,则使用词形还原。此外,这两种技术适用于印欧语系,但不太适合中文,因为汉字可能由其他两个汉字组合而成,拆分可能改变词义。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值