python jieba库初识

原创已于 2022-03-09 08:30:19 修改 · 1.6k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python

于 2022-03-09 08:29:31 首次发布

Python 基础篇专栏收录该内容

13 篇文章

订阅专栏

本文介绍了jieba中文分词库的三种模式：精准模式、全模式和搜索引擎模式，并通过示例展示了它们在处理句子时的差异。同时，还演示了如何使用jieba.add_word()函数向词典添加新词，以确保分词的准确性。

jieba是第三方中文分词函数库
jieba有三种模式：

精准模式：将句子最精准的切开，适合文本分析
全模式：把句子中所有可以成词的词语都扫描处理，速度快但是不能消除歧义
搜索引擎模式：在精准模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

import jieba


# lcut(s)函数  精确模式，返回一个列表类型
s1 = '全国计算机等级考试python科目'
print(jieba.lcut(s1))     # ['全国', '计算机', '等级', '考试', 'python', '科目']


# lcut(s, cut_all=Ture)   全模式，返回一个列表类型
print(jieba.lcut(s1, cut_all=True))        # ['全国', '国计', '计算', '计算机', '算机', '等级', '考试', 'python', '科目']


# lcut_for_search(s)    搜索引擎模式，返回一个列表类型
# 这种方式会出现一定的分词冗余
print(jieba.lcut_for_search(s1))          # ['全国', '计算', '算机', '计算机', '等级', '考试', 'python', '科目']


# add_word(w)函数      向分词词典中添加新词w
# 添加新词后，当再次遇到该词时将不再被分开
jieba.add_word('全国计算机')
print(jieba.lcut(s1))         # ['全国计算机', '等级', '考试', 'python', '科目']