11. BI - 如何在 Python 中进行分词并展示词云

本文为 「茶桁的 AI 秘籍 - BI 篇 第 11 篇」

在这里插入图片描述


Hi, 你好。我是茶桁。

之前两节课,咱们学习了基础的数据可视化工具以及决策树的可视化。今天这节课,咱们要看到的是另外一个场景,叫做词云展示。

词云应该所有人都不会陌生,一般什么时候用呢?

2007 年的时候北京的 Google 总部,一进入谷歌大楼就有一个非常震撼的场景,在谷歌的大屏幕里面就放了一个词云的展示。其实现在都知道是词云展示,技术并不是很难。它有个地球,每个地点里面都有个点。无论是在北京,或者在印度、美国的某个城市,每个点里面会呈现一个词云。这个词云告诉你在当前城市的关键词,它的新闻都呈现怎样的一个走势,用一种滚动的形态。你会发现它非常的智能。

Python 词云展示

词云就是对关键词的一种提取,它是文本分析的一种工具。如果我们要做文本分析的话基本上比较常做的就是两种,要么就是英文,要么就是中文。

做词云展示之前要对文本进行处理,文本特征要去做提取的时候你要以一个单词的粒度。那单词怎么来?在一连串过程中我们要把最原始的那个单词给它提取出来,我们称之为叫做分词

分词需要用一些分词工具,中文的分词工具最常见的是jieba,英文的话用NLTK

那为了下面课程大家能跟着一起操作,我说一下这两个工具的安装。jieba比较简单,直接用conda install jieba就可以了,nltk 也是一样的,直接用conda install nltk,只是

<think>嗯,用户问的是如何在Excel中创建。首先,我得确认Excel本身是否支持直接生成。根据我的知识,Excel没有内置的功能,这点用户可能不知道,所以需要说明。接下来,用户可能需要替代方法,比如使用其他工具结合Excel数据,比如Python或者在线工具。 然后,我需要参考用户提供的引用内容。引用里提到使用Python处理Excel数据生成,特别是用到了wordcloud库、pandas、jieba分词这些工具。这说明用户可能对Python有一定了解,或者愿意尝试编程方法。同时,用户可能更希望有一个不用编程的解决方案,所以应该提供两种方法:Python脚本和在线工具。 接下来,整理步骤。对于Python方法,需要指导安装必要的库,比如pandas、wordcloud、matplotlib、jieba,然后读取Excel文件,处理文本数据分词,统计频,最后生成图。这部分需要确保代码示例正确,且用户能够复制运行。同时,注意代码中的中文处理,比如指定中文字体路径,避免乱码。 对于在线工具方法,比如微,用户可能更喜欢简单快捷的方式。需要详细说明上传Excel的步骤,如何选择文本列,调整样式,最后导出结果。这部分要强调无需编程,适合不熟悉Python的用户。 另外,用户可能遇到的问题包括Excel数据格式是否正确,比如文本是否在单独的列中;分词时的中文处理问题,比如需要安装jieba库;以及生成时的字体设置。需要提醒用户注意这些点,确保步骤顺利。 最后,生成相关问题,帮助用户深入理解,比如优化样式、处理中文分词问题、自动更新的方法,以及Excel的其他数据可视化方式。这些问题应该覆盖用户可能感兴趣的扩展内容,提供进一步学习的途径。</think>### 如何在Excel中生成图? #### 方法一:通过Python连接Excel生成(推荐) **步骤说明:** 1. **安装必要库** ```bash pip install pandas jieba wordcloud matplotlib openpyxl ``` 2. **准备Excel数据** - 确保Excel中有一列包含待分析的文本(例如:岗位描述) 3. **Python代码实现** ```python import pandas as pd import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt # 读取Excel文件 df = pd.read_excel('work_all.xlsx', engine='openpyxl') # [^3] # 合所有文本内容 text = ' '.join(df['岗位描述'].astype(str)) # 中文分词处理 words = ' '.join(jieba.cut(text)) # [^3] # 生成 wc = WordCloud( font_path='msyh.ttc', # 指定中文字体 width=800, height=600, max_words=100, background_color='white' ).generate(words) # 显示图 plt.imshow(wc, interpolation='bilinear') plt.axis("off") plt.show() ``` #### 方法二:使用在线工具(无需编程) 1. **微(免费工具)** - 上传Excel文件,选择包含文本的列 - 通过网页界面调整形状/颜色/字体 - 导出图片(支持PNG/SVG格式)[^4] 2. **Excel插件(付费方案)** - 安装第三方插件如Zebra BI - 通过数据透视表生成基础(功能有限) #### 注意事项 1. 数据清洗:建议在Excel中预先过滤停用(如"的"、"和"等) 2. 中文支持:Python方法需下载中文字体文件(如微软雅黑.ttf) 3. 动态更新:Python代码可保存为脚本,当Excel数据更新时重新运行即可生成新[^1]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

茶桁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值