jieba是中文分词的一个模块,官方文档 jieba官方文档
1,分词
jieba分词常用的函数:
jieba.cut()
jieba.lcut()
jieba.cut_for_search()
jieba.lcut_for_search()
jieba.Tokenizer(dictionary=DEFAULT_DICT)
jieba.cut(sentence, cut_all=False, HMM=True) #默认参数
- sentence 需要分词的字符串;
- cut_all 参数用来控制是否采用全模式;
- HMM 参数用来控制是否使用 HMM 模型 ;隐马尔可夫模型
例如: