jieba分词是目前最好的python处理中文的词库,有三种模式:精确模式、全模式、搜索引擎模式,并且支持自定义词库。
本文词云根据读取txt文件,文件主要是招聘职位的词云统计及可视化,其中为了更好地展现词云的效果,我们创建了自定义词库和停用词库:
先简单说说精确模式,全模式,搜索引擎模式
精确模式和全模式相当于贪婪算法,即最大匹配与最小比配,精确模式是对句子进行越少的切分越好,且切分后无重复字;全模式是把句子中的词汇只要在词库中就显示出来,一般都有重复;对于搜索引擎模式,就纯属是字面意思了。以“这个暑假我和我的女朋友去上海东方明珠塔游玩”为例:
import jieba
seg_list = jieba.cut("这个暑假我和我的女朋友去上海东方明珠塔游玩", cut_all=True)
print("【全模式】:" + "/ ".join(seg_list))
print(type(seg_list))
seg_list = jieba.cut("这个暑假我和我的女朋友去上海东方明珠塔游玩", cut_all=False)
print("【精确模式】:" + "/ ".join(seg_list))
print(type(seg_list))
seg_list = jieba.cut_for_search("这个暑假我和我的女朋友去上海东方明珠塔游玩")
print("【搜索引擎模式】:" + "/ ".join(seg_list))
print(type(seg_list))
【全模式】:这个/ 暑假/ 我/ 和/ 我/ 的/ 女朋友/ 朋友/ 去/ 上海/ 上海东方/ 海东/ 东方/ 东方明珠/ 方明/ 明珠/ 塔/ 游玩
<class 'generator'>
【精确模式】:这个/ 暑假/ 我/ 和/ 我/ 的/ 女朋友/ 去/ 上海/ 东方明珠/ 塔/ 游玩
<class 'generator'>
【搜索引擎模式】:这个/ 暑假/ 我/ 和/ 我