jieba是中文分词的一个模块,官方文档 jieba官方文档
1,分词
jieba分词常用的函数:
jieba.cut()
jieba.lcut()
jieba.cut_for_search()
jieba.lcut_for_search()
jieba.Tokenizer(dictionary=DEFAULT_DICT)
jieba.cut(sentence, cut_all=False, HMM=True) #默认参数
- sentence 需要分词的字符串;
- cut_all 参数用来控制是否采用全模式;
- HMM 参数用来控制是否使用 HMM 模型 ;隐马尔可夫模型
例如:

本文介绍了jieba分词模块的使用,包括基本分词、载入自定义字典和实战应用。通过实例展示了如何处理中文文本,如小说《琅琊榜》的分词,并解决编码问题,以及统计高频词汇。
最低0.47元/天 解锁文章
4万+

被折叠的 条评论
为什么被折叠?



