Python与机器学习（五）朴素贝叶斯分类_for i in range(numtraindocs):-优快云博客

本文链接：https://blog.youkuaiyun.com/monkey131499/article/details/50824539

1.安装中文分词器

由于本文是对中文文本进行分类，故需要用到中文分词器，而结巴分词则是Python支持较好的一款分词器。

使用命令安装：

pip3 install jieba3k

或者下载结巴分词文件【下载】

结巴分词测试：

结巴分词支持三种分词模式：

精确模式，也是结巴分词的默认模式，可以将句子以最精确的方式分开；
全模式，可以将句子中所有能够组成词语的词分割开来，速度较快，但有些词语并不正确；
搜索引擎模式，该模式可以说是对精确模式的加深，即对精确模式产生的长词进一步分割。

结巴分词是基于Trie树结构实现高效的词图扫描，采用动态规划找最大概率路径，找出基于词频的最大切分组合，对于词典中不存在的词，则采用基于汉字成词能力的HMM模型，使用Viterbi算法。

import jieba
seg = jieba.cut("这里的樱花真美丽，还是去武大看樱花，听说那里的计算机科学学院还不错",cut_all=True)
print('全模式：',"/".join(seg))
seg = jieba.cut("这里的樱花真美丽，还是去武大看樱花，听说那里的计算机科学学院还不错",cut_all=False)
print('精确模式：',"/".join(seg))
seg = jieba.cut_for_search("这里的樱花真美丽，还是去武大看樱花，听说那里的计算机科学学院还不错")
print('搜索引擎模式：',"/".join(seg))