词干提取和词形还原

本文介绍了词干提取和词形还原的概念及其在文本处理中的应用。详细解释了词干提取的三种主流算法:PorterStemming、Lovinsstemmer和LancasterStemming,并对比了词干提取与词形还原的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

词干提取(stemming)和词形还原(Lemmatisation):

词干提取( Stemming ) 这是西方语言特有的处理,比如说英文单词有单数复数的变形,-ing和-ed的变形,但是在计算相关性的时候,应该当做同一个单词。比如 apple和apples,doing和done是同一个词,提取词干的目的就是要合并这些变态。

Stemming有3大主流算法

Porter Stemming、Lovins stemmer 和 Lancaster Stemming。
Lucene 英文分词自带了3个stemming算法,分别是:
1. EnglishMinimalStemmer   2. 著名的 Porter Stemming   3. KStemmer

词干提取算法并不复杂,要么是一堆规则,要么用映射表,编程容易,但是必须是这种语言的专家,了解构词法才行。

http://text-processing.com/demo/stem/ 是一个在线试验词干提取算法的网站。


词形还原(Lemmatisation),就是通过查询字典,把 "drove" 还原到 "drive" ,而词干提取( Stemming ) 会把单词变短,"apples","apple"处理之后都变成了 "apple"。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值