安装
pip install jieba
使用
import jieba
分词
jieba.cut 和jieba.lcut
区别lcut会转化成list数据返回
模式
精准模式(默认):
试图将句子最精确地切开,适合文本分析
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
全模式:
把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
搜索引擎模式
在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
jieba.cut_for_search 和 jieba.lcut_for_search