jieba--做最好用的中文分词组件详解【1】（精确模式、全模式、搜索模式分词）

最新推荐文章于 2025-06-19 19:16:26 发布

原创最新推荐文章于 2025-06-19 19:16:26 发布 · 2.1w 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#python #jieba

python 同时被 2 个专栏收录

119 篇文章

订阅专栏

jieba

3 篇文章

订阅专栏

本文介绍了jieba分词器的基础使用，包括三种分词模式：精确模式、全模式和搜索引擎模式，以及如何安装和使用该组件进行中文分词。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在最前面：

今天只做基础使用介绍，关于分词使用的算法、模型会在下面的博客详细介绍。

特点：

jieba是一款中文分词组件，支持python2，3
支持三种分词模式：
- 精确模式，试图将句子最精确地切开，适合文本分析；
- 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
- 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
支持繁体分词
支持自定义词典
MIT 授权协议

安装方式：

全自动安装：easy_install jieba 或者 pip install jieba / pip3 install jieba
半自动安装：先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行 python setup.py install
手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录

通过

 import jieba

来引用

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
他, 来到, 了, 网易, 杭研, 大厦
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

jieba.cut方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型，HMM=True就是开启使用HMM模型，需要注意的是，cut_all默认为False，就是精确模式。

jieba.cut_for_search方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。

来测试一下吧！传说中让老外疯狂的中文分句练习，看看jieba的表现如何。

import jieba


seg_list1 = jieba.cut("今天下雨我骑车差点摔倒了好在我一把把把把住了")
seg_list2 = jieba.cut('我想过过儿过过的生活')
print(", ".join(seg_list1))
print(", ".join(seg_list2))

今天, 下雨, 我, 骑车, 差点, 摔倒, 了, 好, 在, 我, 一把, 把, 把, 把住, 了
我, 想, 过, 过儿, 过过, 的, 生活

哎哟，不错哟