小白入门猿来如此之结巴jieba中文分词+添加自定义词典+我的cheatsheet（写给自己看(*^_^*)）

jieba是一款强大的Python中文分词库，支持精确、全、搜索引擎和paddle模式。它可以处理繁体词、自定义词典，并利用HMM和动态规划进行未登录词识别。在遇到歧义时，可以通过调整词频来改善分词效果。此外，jieba还支持词性标注和关键词提取，广泛应用于文本分析和自然语言处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

项目github地址
https://github.com/fxsjy/jieba

Jieba：中文文本分割：构建为最佳的Python中文单词分割模块。
支持繁体中文分词、支持用户自定义词典。
广泛用于文本分析、词云绘制、关键词提取、自然语言处理等领域

jieba常用函数

支持四种分词模式：

精确模式：把最可能组成词语的词切开，没有冗余单词。
全模式：把所有可能组成词语的词切开，有冗余单词。
搜索引擎模式：在精确模式的基础上，对长词再次切分，适合用于搜索引擎分词。结果和全模式类似。
paddle模式：使用百度PaddlePaddle飞桨深度学习框架，调用双向GRU循环神经网络进行分词，同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny，pip install paddlepaddle-tiny==1.6.1
目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本，请升级jieba，
pip install jieba --upgrade

支持繁体分词
支持自定义词典

打开黑匣子

基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
3.对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用 Viterbi 算法

使用隐马尔可夫、动态规划等概率模型，计算字符之间的关联概率，字符间概率大的就认为是一个词。详见我上一篇博客中文文本挖掘的分词原理 By 刘建平Pinard + 我的cheatsheet

主要功能

1. 分词

报错

AssertionError: In PaddlePaddle 2.x, 
we turn on dynamic graph mode by default, and 'data()' is only supported in static graph mode. 
So if you want to use this api, 
please call 'paddle.enable_static()' 
before this api to enter static graph mode.

解决：

import paddle
paddle.enable_static()

正确运行代码:

# encoding=utf-8
import jieba
import paddle
paddle.enable_static()

jieba.enable_paddle()# 启动paddle模式。 0.40版之后开始支持，早期版本不支持
strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
for str in strs:
    seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式，即cut_all=false是精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

结果：

Paddle Mode: 我/来到/北京清华大学
Paddle Mode: 乒乓球/拍卖/完/了
Paddle Mode: 中国科学技术大学
Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
他, 来到, 了, 网易, 杭研, 大厦
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

对于普通用户，使用精确模式即可。
窃以为精确模式与paddle模式更好

语法

一点python知识：
Python中join()函数的使用

jieba.cut
四个输入参数:
1.需要分词的字符串；
2.cut_all ：控制是否采用全模式；
3.HMM ：控制是否使用 HMM 模型；
4.use_paddle ：控制是否使用paddle模式下的分词模式，paddle模式采用延迟加载方式，通过enable_paddle接口安装paddlepaddle-tiny，并且import相关代码；注意可能会报错，看上面

jieba.cut_for_search
两个参数：
1.需要分词的字符串；
2.是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

jieba.cut和jieba.cut_for_search返回的结构是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
jieba.lcut与jieba.lcut_for_search直接返回 list
[ c u t 和 I c u t]

待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。意思就是不完全是全模式或者精确模式，是自定义

jieba.dt为默认分词器，所有全局分词相关函数都是该分词器的映射。

2.添加自定义词典

开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。
虽然 jieba 有新词识别能力（如上，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了），但是自行添加新词可以保证更高的正确率
用法：jieba.load_userdict(file_name)
file_name 为文件类对象或自定义词典的路径
file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。
词典格式和 dict.txt 一样，一个词占一行；
每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。
例如：
jieba词性说明

词语   词频   词性
创新办   3    i
云计算   5
凱特琳  nz
台中

更改分词器（默认为 jieba.dt）的tmp_dir和 cache_file属性，可分别指定缓存文件所在的文件夹及其文件名，用于受限的文件系统。

jieba.add_word('科学院大学') # 增加词语“科学院大学”
jieba.lcut('中国科学院大学',cut_all=True)
# 全模式：['中国', '中国科学院', '科学', '科学院', '科学院大学', '学院', '大学']

范例：

自定义词典：

云计算 5
李小福 2 nr
创新办 3 i
easy_install 3 eng
好用 300
韩玉赏鉴 3 nz
八一双鹿 3 nz
台中
凱特琳 nz
Edu Trust认证 2000

动态修改词典

1.使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

#encoding=utf-8
from __future__ import print_function, unicode_literals
import sys
sys.path.append("../")
import jieba
jieba.load_userdict("userdict.txt")
import jieba.posseg as pseg

jieba.add_word('石墨烯')
jieba.add_word('凱特琳')
jieba.del_word('自定义词')

test_sent = (
"李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n"
"例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类\n"
"「台中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。"
)
words = jieba.cut(test_sent)
print('/'.join(words))

print("="*40)

output：

李小福/是/创新办/主任/也/是/云计算/方面/的/专家/;/ /什么/是/八一双鹿/
/例如/我/输入/一个/带/“/韩玉赏鉴/”/的/标题/，/在/自定义/词库/中/也/增加/了/此/词为/N/类/
/「/台中/」/正確/應該/不會/被/切開/。/mac/上/可/分出/「/石墨烯/」/；/此時/又/可以/分出/來/凱特琳/了/。

pseg.cut(str1) ##词性标注，标注句子分词后每个词的词性

result = pseg.cut(test_sent)
for w in result:
    print(w.word, "/", w.flag, ", ", end=' ')

output:

李小福 / nr ,  是 / v ,  创新办 / i ,  主任 / b ,  也 / d ,  是 / v ,  云计算 / x ,  方面 / n ,  的 / uj ,  专家 / n ,  ; / x ,    / x ,  什么 / r ,  是 / v ,  八一双鹿 / nz ,  
 / x ,  例如 / v ,  我 / r ,  输入 / v ,  一个 / m ,  带 / v ,  “ / x ,  韩玉赏鉴 / nz ,  ” / x ,  的 / uj ,  标题 / n ,  ， / x ,  在 / p ,  自定义 / l ,  词库 / n ,  中 / f ,  也 / d ,  增加 / v ,  了 / ul ,  此 / r ,  词 / n ,  为 / p ,  N / eng ,  类 / q ,  
 / x ,  「 / x ,  台中 / s ,  」 / x ,  正確 / ad ,  應該 / v ,  不 / d ,  會 / v ,  被 / p ,  切開 / ad ,  。 / x ,  mac / eng ,  上 / f ,  可 / v ,  分出 / v ,  「 / x ,  石墨烯 / x ,  」 / x ,  ； / x ,  此時 / c ,  又 / d ,  可以 / c ,  分出 / v ,  來 / zg ,  凱特琳 / nz ,  了 / ul ,  。 / x ,

分词英语和带空格的

terms = jieba.cut('easy_install is great')
print('/'.join(terms))
terms = jieba.cut('python 的正则表达式是好用的')
print('/'.join(terms))

output

easy_install/ /is/ /great
python/ /的/正则表达式/是/好用/的

这说明在中文中空格也被作为一部分

Test frequency tune

使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来
sent：sentence   seg：segment
before：jieba.get_FREQ(word) 
after：suggest_freq(segment, tune=True)
“今天天气”的词频从3——>0 说明要分开！它就不是一个词
“中将”的词频从763——>494 说明要分开（毕竟在一起作为一个组合词的概率降低了）！
“中出”的词频没变  但是一开始就分开了 毕竟词频3本来就很低

# test frequency tune
testlist = [
('今天天气不错', ('今天', '天气')),
('如果放到post中将出错。', ('中', '将')),
('我们中出了一个叛徒', ('中', '出')),
]

for sent, seg in testlist:
    print('/'.join(jieba.cut(sent, HMM=False)))
    word = ''.join(seg)
    print('%s Before: %s, After: %s' % (word, jieba.get_FREQ(word), jieba.suggest_freq(seg, True)))
    print('/'.join(jieba.cut(sent, HMM=False)))
    print("-"*40)

output

今天天气/不错
今天天气 Before: 3, After: 0
今天/天气/不错
----------------------------------------
如果/放到/post/中将/出错/。
中将 Before: 763, After: 494
如果/放到/post/中/将/出错/。
----------------------------------------
我们/中/出/了/一个/叛徒
中出 Before: 3, After: 3
我们/中/出/了/一个/叛徒
----------------------------------

补充：
通过用户自定义词典来增强歧义纠错能力
节选：
1.解决方案是在词典中补充“君意”这个词，并给予一个词频，不用太大，比如3即可
2.通过在自定义词典里提高“江大桥”的词频可以做到，但是设置多少还没有公式[有意思！]，词频越高则成词概率越大，不宜过大。
3.在提供自定义词的时候，需要指定词频
频率越高，成词的概率就越大
4.注意自定义词典不要用Windows记事本保存，这样会加入BOM标志，导致第一行的词被误读。
5.如果你添加的词语特别多的话（因为会对分母造成影响），建议直接加到dict.txt里面，否则就用jieba.load_userdict好了（这里的分母还是用的dict.txt中的总词频和，为了性能并没有重新计算一遍）。
6.dict.txt里面的词频只是为解决歧义而设置的，词典中的词频数值跟计算tf-idf时没有必然联系

==user.dict===

君意 3

==test.py==

encoding=utf-8
import sys
import jieba
jieba.load_userdict("user.dict")
print ", ".join(jieba.cut("大连美容美发学校中君意是你值得信赖的选择"))

==结果===
大连, 美容美发, 学校, 中, 君意, 是, 你, 值得, 信赖, 的, 选择

有歧义的词语需要提高词频例如“江大桥”
一般不用太大，除非是歧义纠结的句子。

==user.dict==

江大桥 20000

===test1.py======

#encoding=utf-8
import sys
sys.path.append("../")
import jieba
jieba.load_userdict("user.dict")
print ", ".join(jieba.cut("江州市长江大桥参加了长江大桥的通车仪式"))

==结果===
江州, 市长, 江大桥, 参加, 了, 长江大桥, 的, 通车, 仪式


注意看这里江大桥”的词频就要大到了20000
这个例子比较极端，因为”长江大桥“、”市长“这些词的频率都很高，
为了纠正，才把”江大桥“的词频设置的很高。
而对于一般的词典中没有的新词，大多数情况下不会处于有歧义的语境中，故词频也就2,3,4就够了。

很有价值的问题

使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。

这个调节词频的函数是自己判断提高还是降低词频吗？如果不是，我用什么方法来告诉该函数仅仅降低词频？

分词是以词频为中心的，不论用什么方法，最终都会归到词频。
首先说一下词频的规律：

词频相对越大越能分出词
单字的词频一般都大于双字

先举个我的例子：
对于这句话：“「台中」正确应该不会被切开”。当前词频为FREQ(‘台’)=16964, FREQ(‘中’)=243191, FREQ(‘台中’)=3. 由于’台’和’中’的词频远远大于’台中’，故分出的是：

>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开')))
「/台/中/」/正确/应该/不会/被/切开

但是，是不是只要’台’和’中’的词频大于’台中’就可以分出’台/中’：

>>> jieba.add_word('台中', 69)  # 此时FREQ('台中')=69
>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开')))
「/台中/」/正确/应该/不会/被/切开

可见不是。这是因为刚刚说过，首先，单字词频大于双字属正常现象，故此时虽然’台’和’中’的词频大于’台中’，还是可以分出‘台中’。刚才又说过，词频相对越大越能分出词，故FREQ(‘台中’)=69可以分出词，但FREQ(‘台中’)=3时就无法分出词。

如果你要问怎么根据词频精确计算出是否能分出词，这涉及到数学知识

获得正好能/不能分出词的词频界限，即suggest_freq的返回值：

>>> jieba.suggest_freq('台中', True)
69

减小’太贵’的词频，有以下几种办法


>>> jieba.add_word('太贵', 0)  # 设置'太贵'词频为0，这=把字典中“太贵”直接删掉，应该是一样的
>>> print('/'.join(jieba.cut('藏宝阁太贵')))
藏宝阁/太/贵

或

>>> jieba.del_word('太贵')  # 直接删除此词，相当于词频=0
>>> print('/'.join(jieba.cut('藏宝阁太贵')))
藏宝阁/太/贵

>>> print(jieba.suggest_freq(('太', '贵'), True))  # 获取建议的分词词频
0
>>> print('/'.join(jieba.cut('藏宝阁太贵')))
藏宝阁/太/贵

大幅增大’太’和’贵’的词频：

>>> jieba.add_word('太', 10000000000000)
>>> jieba.add_word('贵', 10000000000000)
>>> print('/'.join(jieba.cut('藏宝阁太贵')))
藏宝阁/太/贵

再补充
jieba分词的dictionary

未完待续…后面再来学学关键词提取，也很有意思！请大家继续关注