在NLP中,我们对一句话或一个文档分词之后,一般要进行词干化处理。词干化处理就是把一些名词的复数去掉,动词的不同时态去掉等等类似的处理。
R语言很多包可以词干化,如snowball,Rstem等,但是它们的词干化是比较机械的,比如掐头去尾,不少词干可读性差,词干化以后要词干还原不太方便。但运用python nltk的wordnet词料库却可以方便地实现词干化,不需词干还原。
from nltk.corpus import wordnet as wn
wn.morphy('dancing')
#'dancing'
wn.morphy('needs')
#'need'
wn.morphy('business')
#'business'
wn.morphy('got')
#'get'
我们可以看到needs->need,got->get,这就是词干化处理;
本文介绍了在自然语言处理中词干化的重要性和实现方法。通过词干化,可以将词汇规范化,便于后续处理。文章展示了使用Python NLTK库进行词干化的实例。
2838

被折叠的 条评论
为什么被折叠?



