Python与机器学习(五)朴素贝叶斯分类

1.安装中文分词器

由于本文是对中文文本进行分类,故需要用到中文分词器,而结巴分词则是Python支持较好的一款分词器。

使用命令安装:

pip3 install jieba3k

或者下载结巴分词文件下载

结巴分词测试:

结巴分词支持三种分词模式:

  • 精确模式,也是结巴分词的默认模式,可以将句子以最精确的方式分开;
  • 全模式,可以将句子中所有能够组成词语的词分割开来,速度较快,但有些词语并不正确;
  • 搜索引擎模式,该模式可以说是对精确模式的加深,即对精确模式产生的长词进一步分割。

结巴分词是基于Trie树结构实现高效的词图扫描,采用动态规划找最大概率路径,找出基于词频的最大切分组合,对于词典中不存在的词,则采用基于汉字成词能力的HMM模型,使用Viterbi算法。

import jieba
seg = jieba.cut("这里的樱花真美丽,还是去武大看樱花,听说那里的计算机科学学院还不错",cut_all=True)
print('全模式:',"/".join(seg))
seg = jieba.cut("这里的樱花真美丽,还是去武大看樱花,听说那里的计算机科学学院还不错",cut_all=False)
print('精确模式:',"/".join(seg))
seg = jieba.cut_for_search("这里的樱花真美丽,还是去武大看樱花,听说那里的计算机科学学院还不错")
print('搜索引擎模式:',"/".join(seg))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值