分为两个部分来完成:
1. 得到分词。
2. 数据处理
3. 生成云图。
1. 分词的获取。
这里的分词可以是来源于爬取的文本,之后用 jieba 包做一下分词(用jieba.cut()方法)。会得到分词集合(这里返回的是generator)。可以写一个小函数来对分词结果进行初步处理。如下,可以避免单个字或者换行符号。
2. 数据处理
上面得到了最原始的文本分词。这里需要将其利用 pandas 包进行相应的处理:去除stopwords + 词语封装成为 DataFrame。
前者可以直接下载到,后者是pandas特有的数据结构,表现为类似于表格式。
其中具体的方法参数,需要去查阅一下。
3. 生成云图
此时需要根据词语的频率生成云图。采用numpy包来进行计数。
可以看到现在已经生成了基于词频的 DataFrame
之后直接生成云图。这里的 fit_words()方法的输入一定要是个dict