中文词云
前言
词云是一个统计并展示文本关键内容的方式,因为这种表现手法令人印象深刻,对于这种展示方式有了一定的兴趣并进行了学习。
一、词云是什么?
“词云”就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。
词云图过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
二、词云的实现
这里我尝试了对于中文文本的词云功能的实现,主要使用了wordcloud和jieba两个库,由于wordcloud并不直接支持中文词云,因此需要使用jieba进行断词
用jieba断词,小说文本存入"mori.txt",停用词列表在"stopword.txt"中,断词结果好坏,停用词很重要,需要不断调整补充。
from wordcloud import WordCloud
import jieba
f = open(u'mori.txt','r').read()
##cuttext=" ".join(jieba.cut(f))
cuttext= jieba.cut(f)
final= []
stopwords=open(u'stopword.txt','r').read()
for seg in cuttext:
##seg = seg.encode('utf-8')
if seg[0] not in [

本文探讨了词云作为文本内容展示方式的原理,并详细介绍了如何利用Python的wordcloud和jieba库实现中文词云的生成,强调了停用词列表在词云制作中的重要性。通过实例展示了词云效果及词频统计的代码实现。
最低0.47元/天 解锁文章
3511

被折叠的 条评论
为什么被折叠?



