jieba分词库在中文文本预处理的应用-优快云博客

本文链接：https://blog.youkuaiyun.com/spring_willow/article/details/79690652

jieba是处理中文分词的库，提供了基本分词、添加自定义词典、关键词提取（TF-IDF和TextRank算法）、词性标注、Tokenize和去除停止词等功能。在关键词提取中，可以通过设置IDF和stop_words路径来定制语料库。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

jieba

jieba是一个专门处理中文分词的分词库,但其实功能比单纯的分词强大许多。

中文不同于英文可以通过空格分开每个有意义的词，对于中文需要一个工具将完整的文本分割成更细致的词语，类似于英文分词中使用的nltk工具，中文中需要使用jieba。

pip install jieba

1.基本分词函数

jieba.cut()接受三个输入参数
①需要进行分词的字符串
②cut_all控制是否采用全模式
③HMM参数控制是否使用HMM模型
jieba.cut_for_search()接受两个参数
①需要进行分词的字符串
②是否使用HMM模型
（该方法用于搜索引擎构建倒排索引的分词中）
jieba.lcut(）以及jieba.lcut_for_search()直接返回list

import jieba
word = jieba.cut('他去了杭研大厦',cut_all=False)
#精确模式
#结果：他/去/了/杭研/大厦/

word = jieba.cut_for_search('小明硕士毕业于中国科学院计算所')
print('，'.join(word))
#结果：小明，硕士，毕业，于，中物，中物院，计算，计算所

word = jieba.lcut_for_search("小明硕士毕业于中物院计算所")
print(' '.join(word))
#小明 硕士 毕业 于 中物 中物院 计算 计算所