中文词云
前言
词云是一个统计并展示文本关键内容的方式,因为这种表现手法令人印象深刻,对于这种展示方式有了一定的兴趣并进行了学习。
一、词云是什么?
“词云”就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。
词云图过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
二、词云的实现
这里我尝试了对于中文文本的词云功能的实现,主要使用了wordcloud和jieba两个库,由于wordcloud并不直接支持中文词云,因此需要使用jieba进行断词
用jieba断词,小说文本存入"mori.txt",停用词列表在"stopword.txt"中,断词结果好坏,停用词很重要,需要不断调整补充。
from wordcloud import WordCloud
import jieba
f = open(u'mori.txt','r').read()
##cuttext=" ".join(jieba.cut(f))
cuttext= jieba.cut(f)
final= []
stopwords=open(u'stopword.txt','r').read()
for seg in cuttext:
##seg = seg.encode('utf-8')
if seg[0] not