使用jieba分析小说太古神王中，男主更爱谁？去文章中找答案吧！#华为云·寻找黑马程序员#

最新推荐文章于 2021-12-05 18:30:00 发布

原创

最新推荐文章于 2021-12-05 18:30:00 发布 · 628 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#华为云

通过jieba分词库分析《太古神王》小说，发现男主秦问天对叶倾城和长青青儿的出场频率相近，但男主更频繁出现，暗示他最爱自己。文章介绍了jieba分词的使用方法，包括分词、设置解析词语和关键字抽取，并生成了词云图。

特大好消息

周三晚上，我媳妇儿就要带着俩小爷去重庆姐姐家玩了，我又可以一个人开心的学习、玩耍了，想着都开心到失眠啊…失眠怎么办？写公众号啊，哈哈。

文本分析

很多时候，我们会去统计一片文章中的高频词汇，以此来作为文章的关键词条，那么词频分析在python中，该用什么模块做？jieba！
第一次听到这个词就乐了，一个**“结巴”，帮助我们统计词频…但仔细了解这个模块后，你会发现它的强大。怎么证明？来看看github。

19K的star，5000+fork你就知道它多受欢迎了！让我们先来学学jieba**。

jieba介绍

jieba的github上readme写的非常详细，如果大家喜欢可以去仔细学习：jieba gihub地址。这里挑我们代码需要用到的地方讲解下…
安装： pip install jieba
以下内容引用自jieba github

“结巴”中文分词：做最好的 Python 中文分词组件

分词

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

代码示例

# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))
输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大