python绘制词云全流程解析,jieba库,NLP分词,搭配词频统计输出。
关键库说明:
re 文本数据处理 替换字符串内字符数据
jieba 文本分词库 ,语句拆分
WordCloud 词云图片生产库
PIL 图像处理相,强大且历史悠久的库
matplotlib 绘图库,无需多言
代码逻辑
1 读入NLP 的停用词文件 ,为了提高效率,将该数据组织为字典结构
2 读入待分析统计的文本数据
3 使用jieba进行分词操作, 包括去除空格、去掉标点符号、增加专业名词等
4 对分词结果进行统计汇总(数据结构set去重)
5 对统计结果按照频率进行排序(数据结构dic检索统
原创
2021-02-28 12:02:27 ·
514 阅读 ·
1 评论