词语分类与标注:自然语言处理中的关键技术
1. 引言
在小学阶段,我们就了解了名词、动词、形容词和副词的区别。这些“词类”并非语法学家的凭空创造,而是在许多语言处理任务中非常实用的分类。本章旨在回答以下问题:
1. 什么是词汇类别,它们在自然语言处理中如何应用?
2. 存储单词及其类别的良好 Python 数据结构是什么?
3. 如何自动为文本中的每个单词标注其词性?
2. 使用词性标注器
词性标注器(POS 标注器)处理一系列单词,并为每个单词附加一个词性标签。使用前需导入 nltk :
import nltk
text = nltk.word_tokenize("And now for something completely different")
print(nltk.pos_tag(text))
输出结果为:
[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]
这里,“and”是并列连词(CC),“now”和“completely”是副词(RB),“for”是介词(IN),“something”是名词(NN),“different”是形容词(JJ)。
NLTK 为每个标签提供了文档,可以使用标签进行查询,例如 nltk.
超级会员免费看
订阅专栏 解锁全文
1161

被折叠的 条评论
为什么被折叠?



