第三章 基础工具集与常用数据集
3.1NLTK工具集
NLTK是python中的一个模块,提供了多种语料库和词典资源,同时页包含了多种自然语言处理工具集,方便了对英文的文本处理。
在系统处理器中输入pip install nltk进行安装。
3.1.1 常用语料库和词典资源
1.停用词
停用词的简单意思就是不代表具体含义的词语,如英语中的“a”、“of”等词,或者中文中的“在”、“中”等词语,对于这些词语,在语言处理中并没有很重要的地位,所以将其删除也不会影响整体,反而会提升处理效率。对不同语言来说,可以查看一种语言的停用词词表,如下:
from nltk.corpus import stopwords
stopwords.words('english')
就可以对英文中的停用词进行了解。