在进行LDA模型的运行时,需要先将文章进行去停用词的操作,在python中有一个模块为nltk,该模块中包含去停用词一部分:
##安装nltk模块
如果已经安装了anconda,则nltk模块本身携带,但是stopwords不是本身具有的,需要自行安装(反正我的没有):
pip install nltk
然后进入python
###>>>import nltk
###>>>nltk.download(‘stopwords’)
参考连接:https://blog.youkuaiyun.com/qq_27717921/article/details/60975835 该连接中有更加详细的对nltk的介绍
停用词具体代码
from nltk.corpus import stopwords as pw
import sys
import re
cacheStopWords=pw.words("english"