文本挖掘与推荐系统技术详解
1. 词性标注与词法处理
1.1 感知机词性标注器的使用
感知机词性标注器(Perceptron Tagger)是一种常用的词性标注工具。以下是使用它的示例代码:
from nltk.tag.perceptron import PerceptronTagger
PT = PerceptronTagger()
print (PT.tag('This is a sample English sentence'.split()))
输出结果为:
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('sample', 'JJ'), ('English', 'JJ'), ('sentence', 'NN')]
若想了解特定词性标签的含义,可以使用以下代码:
import nltk
nltk.help.upenn_tagset('NNP')
输出结果为:
NNP: noun, proper, singular
1.2 词干提取
词干提取是将单词转换为其词干的过程,它通过算法去除英语单词常见的词尾,如 “ly”、“es”、“ed” 和 “s” 等。以下是一个词干提取的示例代码:
超级会员免费看
订阅专栏 解锁全文
1323

被折叠的 条评论
为什么被折叠?



