1.使用python实现文本数据的词云可视化,阐述词云原理,数据源可以自行选定; 2.实现文本数据的one-hot编码、Bag-of-word模型,将过程阐述清楚,数据源可以自行选定;
词云可视化
随着大量的数据被产生,收集和存储,如何帮助用户理解和分析这些数据一直是一个研究热点。可视分析是一种借助交互式可视化界面对数据进行分析推理的方法。
1、何为词云?
词云又称标签云或者文字云。
标签云或文字云是关键词的视觉化描述,用于汇总用户生成的标签或一个网站的文字内容。标签一般是独立的词汇,常常按字母顺序排列,其重要程度又能通过改变字体大小或颜色来表现,所以标签云可以灵活地依照字序或热门程度来检索一个标签。大多数标签本身就是超级链接,直接指向与标签相联的一系列条目。
简而言之,就是把需要的关键词绘制成图片,通过改变字体大小或颜色来表现其重要程度。
2、词云能用来做什么?
** 数据分析是一种工具和手段,一种生产过程,那么分析结果的呈现就可以说最终的产品,也就是报告。从我们大多数人的阅读习惯来说,图像永远比文字来的更有力度。所以如何能把数据可视化呈现给读者,就是整个数据分析工作最后的,也是最重要的一环。
简而言之,字不如表,表不如图。是愿意看一堆关键词还是一目了然的云图?**
3、制作词云的步骤有哪些?
云图的制作分为:分词——统计词频——绘图
4、如何分词
** 分词就是把文章中每一句话都炸成单独的词语,分成单蹦的字就没意思了……
对于英文,分词很简单,以空格和标点进行分词就可以了**
5、如何获取专业词库?
学科专业语料库是依据某一学科或专业而建立的独具特色的专门用途语料库,其在专业词表制定、专科词典编纂以及机辅翻译等领域应用十分广泛。近年来,国内学科专业语料库呈现快速发展的趋势,数量越来越多,规模也越来越大;但同时也暴露出一系列问题,如总体发展不平衡、理论研究滞后、资源难以共享等。随着大型通用语料库建设速度放缓,规模较小的学科专业语料库将是未来语料库语言学发展的一大趋势。
使用python实现文本数据的词云可视化
pip install wordcloud
from wordcloud import WordCloud
import matplotlib.pyplot as plt
# 打开文件 读取
strt = open('1.txt').read()
print(strt)
# 生成对象
wc = WordCloud().generate(text=strt)
# 显示词云
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()
# # 保存文件
wc.to_file('happybirthday.png')
#wordcloud模块用于生成词云图
from wordcloud import WordCloud,ImageColorGenerator
#matplotlib是一个Python的第三方库,里面的pyplot可以用来作图
import jieba
import matplotlib.pyplot as plt
from imageio import imread
#读取一个txt文件
text = open('词云可视化.txt','r',encoding="utf-8").read()
#读入背景