Python3下使用WC和numpy做云图

最新推荐文章于 2024-01-01 05:10:33 发布

原创最新推荐文章于 2024-01-01 05:10:33 发布 · 703 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原创同时被 3 个专栏收录

29 篇文章

订阅专栏

9 篇文章

订阅专栏

6 篇文章

订阅专栏

本文介绍如何使用jieba进行中文文本分词，并利用pandas处理分词结果，去除停用词，最终生成基于词频的词云图。通过numpy统计词频，将分词结果转化为DataFrame，便于词云图的生成。

分为两个部分来完成：

1. 得到分词。

2. 数据处理

3. 生成云图。

1. 分词的获取。

这里的分词可以是来源于爬取的文本，之后用 jieba 包做一下分词（用jieba.cut()方法）。会得到分词集合（这里返回的是generator）。可以写一个小函数来对分词结果进行初步处理。如下，可以避免单个字或者换行符号。

2. 数据处理

上面得到了最原始的文本分词。这里需要将其利用 pandas 包进行相应的处理：去除stopwords + 词语封装成为 DataFrame。

前者可以直接下载到，后者是pandas特有的数据结构，表现为类似于表格式。

其中具体的方法参数，需要去查阅一下。

3. 生成云图

此时需要根据词语的频率生成云图。采用numpy包来进行计数。

可以看到现在已经生成了基于词频的 DataFrame

之后直接生成云图。这里的 fit_words()方法的输入一定要是个dict

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。