在上一篇中,介绍了一个python的多进程数组映射的方法。
https://blog.youkuaiyun.com/qq_28969139/article/details/96608611
jieba分词同样可以视为数组映射的过程
def func(params):
jobList = params['jobList']
stopwords = params['stopwords']
return [[word for word in jieba.cut(data) if word not in stopwords] for data in jobList]
multiRun(x_text, func, {"stopwords": stopwords}, 6)
我们只需要改写func函数
将stopwords传入func中即可开启多进程分词。
关于Bug:
1、multiprocessing 不能在 Pycharm 的 Console 中运行;
2、multiprocessing 所有的代码必须在 if __name__ == '__main__': 底下。