基于Python的jieba分词和词云展示

本文介绍了如何使用jieba分词库进行中文处理,包括精确模式、全模式、搜索引擎模式,并讲解了自定义词库和停用词库的创建。通过读取txt文件,展示了招聘职位词云的统计与可视化,强调了自定义词库在处理特定词汇切分问题上的作用,以及停用词库在过滤无关词汇中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

jieba分词是目前最好的python处理中文的词库,有三种模式:精确模式、全模式、搜索引擎模式,并且支持自定义词库。

本文词云根据读取txt文件,文件主要是招聘职位的词云统计及可视化,其中为了更好地展现词云的效果,我们创建了自定义词库和停用词库:

先简单说说精确模式,全模式,搜索引擎模式

精确模式和全模式相当于贪婪算法,即最大匹配与最小比配,精确模式是对句子进行越少的切分越好,且切分后无重复字;全模式是把句子中的词汇只要在词库中就显示出来,一般都有重复;对于搜索引擎模式,就纯属是字面意思了。以“这个暑假我和我的女朋友去上海东方明珠塔游玩”为例:

import jieba 

seg_list = jieba.cut("这个暑假我和我的女朋友去上海东方明珠塔游玩", cut_all=True)
print("【全模式】:" + "/ ".join(seg_list)) 
print(type(seg_list))

seg_list = jieba.cut("这个暑假我和我的女朋友去上海东方明珠塔游玩", cut_all=False)
print("【精确模式】:" + "/ ".join(seg_list)) 
print(type(seg_list))

seg_list = jieba.cut_for_search("这个暑假我和我的女朋友去上海东方明珠塔游玩")
print("【搜索引擎模式】:" + "/ ".join(seg_list)) 
print(type(seg_list))
【全模式】:这个/ 暑假/ 我/ 和/ 我/ 的/ 女朋友/ 朋友/ 去/ 上海/ 上海东方/ 海东/ 东方/ 东方明珠/ 方明/ 明珠/ 塔/ 游玩
<class 'generator'>
【精确模式】:这个/ 暑假/ 我/ 和/ 我/ 的/ 女朋友/ 去/ 上海/ 东方明珠/ 塔/ 游玩
<class 'generator'>
【搜索引擎模式】:这个/ 暑假/ 我/ 和/ 我
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值