基于Python的jieba分词和词云展示

最新推荐文章于 2023-04-16 10:38:05 发布

qixinlei

最新推荐文章于 2023-04-16 10:38:05 发布

阅读量2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：自然语言处理文章标签： jieba 停用词库 python 词云自定义词库

本文链接：https://blog.youkuaiyun.com/qixinlei/article/details/96282198

本文介绍了如何使用jieba分词库进行中文处理，包括精确模式、全模式、搜索引擎模式，并讲解了自定义词库和停用词库的创建。通过读取txt文件，展示了招聘职位词云的统计与可视化，强调了自定义词库在处理特定词汇切分问题上的作用，以及停用词库在过滤无关词汇中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

jieba分词是目前最好的python处理中文的词库，有三种模式：精确模式、全模式、搜索引擎模式，并且支持自定义词库。

本文词云根据读取txt文件，文件主要是招聘职位的词云统计及可视化，其中为了更好地展现词云的效果，我们创建了自定义词库和停用词库：

先简单说说精确模式，全模式，搜索引擎模式

精确模式和全模式相当于贪婪算法，即最大匹配与最小比配，精确模式是对句子进行越少的切分越好，且切分后无重复字；全模式是把句子中的词汇只要在词库中就显示出来，一般都有重复；对于搜索引擎模式，就纯属是字面意思了。以“这个暑假我和我的女朋友去上海东方明珠塔游玩”为例：

import jieba 

seg_list = jieba.cut("这个暑假我和我的女朋友去上海东方明珠塔游玩", cut_all=True)
print("【全模式】：" + "/ ".join(seg_list)) 
print(type(seg_list))

seg_list = jieba.cut("这个暑假我和我的女朋友去上海东方明珠塔游玩", cut_all=False)
print("【精确模式】：" + "/ ".join(seg_list)) 
print(type(seg_list))

seg_list = jieba.cut_for_search("这个暑假我和我的女朋友去上海东方明珠塔游玩")
print("【搜索引擎模式】：" + "/ ".join(seg_list)) 
print(type(seg_list))

【全模式】：这个/ 暑假/ 我/ 和/ 我/ 的/ 女朋友/ 朋友/ 去/ 上海/ 上海东方/ 海东/ 东方/ 东方明珠/ 方明/ 明珠/ 塔/ 游玩
<class 'generator'>
【精确模式】：这个/ 暑假/ 我/ 和/ 我/ 的/ 女朋友/ 去/ 上海/ 东方明珠/ 塔/ 游玩
<class 'generator'>
【搜索引擎模式】：这个/ 暑假/ 我/ 和/ 我