python词云(含中文英文)

Python词云生成教程
本文介绍如何使用Python生成词云,包括使用jieba进行中文分词,利用WordCloud库设置词云样式,如背景颜色、字体大小及颜色,并展示如何将词云保存为图片。

python词云

from os import path

import jieba
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

d = path.dirname(__file__)

# f = open('nickname.txt', 'r', encoding='UTF-8').read()
f = open('test.txt', 'r', encoding='UTF-8').read()
# 中文字体需要分词
wordlist = " ".join(jieba.cut(f, cut_all=True));

# 背景图片
cloud_image = np.array(Image.open(path.join(d, "girl3.jpg")))

# 设置停用词
stopwords = set(STOPWORDS)
stopwords.add("said")

# 你可以通过 mask 参数 来设置词云形状
wordcloud = WordCloud(background_color="white",  # 设置背景颜色
                      #max_words=2000,  # 设置最大显示的字数
                      mask=cloud_image,  # 设置背景图片
                      #stopwords=stopwords,  # 设置停用词
                      font_path="仿宋_GB2312.ttf",  # 设置中文字体,使得词云可以显示(词云默认字体是“DroidSansMono.ttf字体库”,不支持中文)
                      max_font_size=20,  # 设置字体最大值
                      random_state=12  # 设置有多少种随机生成状态,即有多少种配色方案
                      )
# 设置文本
wordcloud.generate(wordlist)

image_colors = ImageColorGenerator(cloud_image)

# 在只设置mask的情况下,你将会得到一个拥有图片形状的词云
#plt.imshow(wordcloud, interpolation="bilinear")
# 我们还可以直接在构造函数中直接给颜色
# 通过这种方式词云将会按照给定的图片颜色布局生成字体颜色策略
plt.imshow(wordcloud.recolor(color_func=image_colors), interpolation="bilinear")
plt.axis("off")
plt.figure()
plt.show()

wordcloud.to_file('test.png')

了解更多请关注微信公众【摩登猪头】,和作者互动,答疑等。公众号上准备了大量的资源等你来领取。你的关注是作者创作的动力。
在这里插入图片描述

<think>嗯,用户想用Python生成,我需要一步步指导他们。首先,用户可能对的基本概念不太清楚,得先简单解释一下。主要是通过统计文本中的汇频率,然后用不同的大小和颜色展示出来,对吧? 接下来,用户需要安装哪些库呢?记得常用的有wordcloud、matplotlib,还有jieba用于中文。可能用户用的是英文文本,但示例里提到中文,所以还是得包jieba的用法。安装命令用pip就行,这点要写清楚。 然后是步骤分解。第一步应该是准备文本数据,可能用户需要知道如何读取文件,或者直接处理字符串。需要提醒他们注意文本的编码问题,尤其是中文文件容易出问题,要指定encoding='UTF-8'。 第二步是文本处理,特别是中文英文可能不需要,但中文必须用jieba分。要给出示例代码,展示如何用jieba.cut进行分,并用空格连接起来。还要提到停用的处理,比如过滤掉常见的无意义汇,用户可能需要知道怎么加载停用文件。 第三步是生成,这里需要导入WordCloud和matplotlib。要解释WordCloud的参数,比如设置背景颜色、字体路径(特别是中文需要指定中文字体,否则乱码)、宽度高度,还有mask参数用来自定义形状。可能需要提到如何使用imageio或PIL来读取图片作为mask。 示例代码部分,得确保代码正确,特别是字体路径部分,用户可能需要根据自己系统调整。比如Windows的字体路径是C:/Windows/Fonts/simfang.ttf,而Mac或Linux可能不同,需要提醒用户注意。 另外,用户可能想自定义的形状,所以得展示如何用mask参数,并且使用imageio或numpy来处理图片。同时,颜色生成器ImageColorGenerator可以根据图片颜色来调整颜色,这部分也要在代码中体现。 最后,显示和保存词云图,用matplotlib展示,或者保存为文件。可能用户会问如何保存,所以代码里加上savefig的方法比较好。 还要注意可能的常见问题,比如中文乱码,通常是字体路径没设置对;形状不匹配,可能是mask图片的问题;还有频统计不准确,需要正确分和过滤停用。 相关问题部分,可以提到如何调整样式、添加中文、优化性能或处理大数据,以及动态,这样用户如果有进一步需求可以继续探索。 检查一下引用的资料,引用[3]和[4]提供了代码示例,特别是mask的使用和中文,需要正确引用。确保所有步骤清晰,代码无误,注意事项覆盖常见问题。</think>### 分步指南:使用Python生成 #### **1. 安装依赖库** ```bash pip install wordcloud matplotlib jieba imageio ``` #### **2. 准备文本数据** - 将待分析的文本保存为`.txt`文件(如`text.txt`)。 - 示例代码: ```python with open('text.txt', 'r', encoding='UTF-8') as f: text = f.read() ``` #### **3. 文本处理与分** - **中文文本需使用分工具**: ```python import jieba # 分并拼接为字符串 cut_text = ' '.join(jieba.cut(text)) ``` - **过滤停用**(需准备停用表`stopwords.txt`): ```python with open('stopwords.txt', 'r', encoding='UTF-8') as f: stopwords = set(f.read().splitlines()) ``` #### **4. 生成基础** ```python from wordcloud import WordCloud import matplotlib.pyplot as plt # 配置参数(中文字体需指定路径) wordcloud = WordCloud( font_path='C:/Windows/Fonts/simfang.ttf', # Windows字体路径 width=800, height=600, background_color='white', stopwords=stopwords ).generate(cut_text) # 显示 plt.imshow(wordcloud) plt.axis('off') plt.show() ``` #### **5. 自定义形状** - **使用`mask`参数指定形状模板(如`shape.png`)**: ```python import imageio.v2 as imageio import numpy as np mask = imageio.imread('shape.png') # 图片需为黑白轮廓 wordcloud = WordCloud( mask=mask, font_path='simfang.ttf', background_color='black' ).generate(cut_text) ``` #### **6. 按图片颜色渲染** ```python from wordcloud import ImageColorGenerator image_colors = ImageColorGenerator(mask) # 从mask提取颜色 wordcloud = wordcloud.recolor(color_func=image_colors) plt.imshow(wordcloud) ``` #### **7. 保存词云图** ```python wordcloud.to_file('wordcloud.png') # 保存为PNG文件 ``` --- ### **完整示例代码** ```python import jieba import imageio.v2 as imageio from wordcloud import WordCloud, ImageColorGenerator import matplotlib.pyplot as plt # 1. 读取文本 with open('text.txt', 'r', encoding='UTF-8') as f: text = f.read() # 2. 中文 cut_text = ' '.join(jieba.cut(text)) # 3. 加载形状模板 mask = imageio.imread('shape.png') # 4. 生成 wordcloud = WordCloud( font_path='simfang.ttf', mask=mask, background_color='white', max_words=200 ).generate(cut_text) # 5. 按模板颜色渲染 image_colors = ImageColorGenerator(mask) wordcloud = wordcloud.recolor(color_func=image_colors) # 6. 显示并保存 plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.savefig('result.png', dpi=300) # 保存高清图 plt.show() ``` --- ### **关键参数说明** | 参数 | 作用 | |---------------------|-------------------------------| | `font_path` | 解决中文乱码问题(必须指定) | | `mask` | 定义形状(numpy数组格式) | | `background_color` | 设置背景颜色(默认黑色) | | `max_words` | 控制显示最大汇量(默认200) | | `collocations=False`| 禁止统计二元词组 | --- ### **注意事项** 1. **中文乱码**:必须通过`font_path`指定中文字体文件路径[^4]。 2. **形状不匹配**:`mask`图片建议使用黑白轮廓图,深色区域为填充区[^3]。 3. **频统计**:需配合停用表过滤无意义汇(如“的”“了”)[^2]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值