什么是词干化处理

最新推荐文章于 2022-11-06 12:12:37 发布

转载最新推荐文章于 2022-11-06 12:12:37 发布 · 1.6k 阅读

·

1

·

NLP/DeepLearning 专栏收录该内容

319 篇文章

订阅专栏

本文介绍了在自然语言处理中词干化的重要性和实现方法。通过词干化，可以将词汇规范化，便于后续处理。文章展示了使用Python NLTK库进行词干化的实例。

在NLP中，我们对一句话或一个文档分词之后，一般要进行词干化处理。词干化处理就是把一些名词的复数去掉，动词的不同时态去掉等等类似的处理。

对于切词得到的英文单词要进行词干化处理，主要包括将名词的复数变为单数和将动词的其他形态变为基本形态。对动词的词干化可以使用 Porter 算法[5]。

R语言很多包可以词干化，如snowball,Rstem等，但是它们的词干化是比较机械的，比如掐头去尾，不少词干可读性差，词干化以后要词干还原不太方便。但运用python nltk的wordnet词料库却可以方便地实现词干化，不需词干还原。

from nltk.corpus import wordnet as wn
wn.morphy('dancing')
#'dancing'

wn.morphy('needs')
#'need'
wn.morphy('business')
#'business'
wn.morphy('got')
#'get'

我们可以看到needs->need，got->get，这就是词干化处理；

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。