1.安装中文分词器
由于本文是对中文文本进行分类,故需要用到中文分词器,而结巴分词则是Python支持较好的一款分词器。
使用命令安装:
pip3 install jieba3k
或者下载结巴分词文件【下载】
结巴分词测试:
结巴分词支持三种分词模式:
- 精确模式,也是结巴分词的默认模式,可以将句子以最精确的方式分开;
- 全模式,可以将句子中所有能够组成词语的词分割开来,速度较快,但有些词语并不正确;
- 搜索引擎模式,该模式可以说是对精确模式的加深,即对精确模式产生的长词进一步分割。
结巴分词是基于Trie树结构实现高效的词图扫描,采用动态规划找最大概率路径,找出基于词频的最大切分组合,对于词典中不存在的词,则采用基于汉字成词能力的HMM模型,使用Viterbi算法。
import jieba
seg = jieba.cut("这里的樱花真美丽,还是去武大看樱花,听说那里的计算机科学学院还不错",cut_all=True)
print('全模式:',"/".join(seg))
seg = jieba.cut("这里的樱花真美丽,还是去武大看樱花,听说那里的计算机科学学院还不错",cut_all=False)
print('精确模式:',"/".join(seg))
seg = jieba.cut_for_search("这里的樱花真美丽,还是去武大看樱花,听说那里的计算机科学学院还不错")
print('搜索引擎模式:',"/".join(seg))