Python3下使用WC和numpy做云图

本文介绍如何使用jieba进行中文文本分词,并利用pandas处理分词结果,去除停用词,最终生成基于词频的词云图。通过numpy统计词频,将分词结果转化为DataFrame,便于词云图的生成。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分为两个部分来完成:

1. 得到分词。

2. 数据处理

3. 生成云图。

 

1. 分词的获取。

这里的分词可以是来源于爬取的文本,之后用 jieba 包做一下分词(用jieba.cut()方法)。会得到分词集合(这里返回的是generator)。可以写一个小函数来对分词结果进行初步处理。如下,可以避免单个字或者换行符号。

2. 数据处理

上面得到了最原始的文本分词。这里需要将其利用 pandas 包进行相应的处理:去除stopwords + 词语封装成为 DataFrame

前者可以直接下载到,后者是pandas特有的数据结构,表现为类似于表格式。

其中具体的方法参数,需要去查阅一下。

3. 生成云图

此时需要根据词语的频率生成云图。采用numpy包来进行计数。

可以看到现在已经生成了基于词频的 DataFrame

之后直接生成云图。这里的 fit_words()方法的输入一定要是个dict

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值