基于jieba、TfidfVectorizer、LogisticRegression的搜狐新闻文本分类

本文介绍了如何使用jieba进行中文分词,结合TfidfVectorizer和LogisticRegression模型对搜狐新闻文本进行分类。通过数据预处理、模型训练和评估,最终得到一个在测试集上表现优秀的分类模型。

学习资源来源:容大教育,致以诚挚的谢意。
重新编辑:潇洒坤

jieba中文叫做结巴,是一款中文分词工具,官方文档链接:https://github.com/fxsjy/jieba
TfidfVectorizer中文叫做词袋向量化模型,是用来文章内容向量化的工具,官方文档链接:http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
LogisticRegression中文叫做逻辑回归模型,是一种基础、常用的分类方法。

建议读者安装anaconda,这个集成开发环境自带了很多包。
到2018年9月1日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex
官网下载地址:https://repo.anaconda.com/archive/Anaconda3-5.2.0-Windows-x86_64.exe
下面代码的开发环境为jupyter notebook,使用在jupyter notebook中的截图表示运行结果。

0.打开jupyter

在桌面新建文件夹命名为基于TfidfVectorizer的文档分类,如下图所示:

10345471-0055ed865a643225.png
image.png

打开 基于TfidfVectorizer的文档分类文件夹,在按住Shift键的情况下,点击鼠标右键,出现如下图所示。
选择 在此处打开PowerShell窗口,之后会在此路径下打开PowerShell。
10345471-e494c2628bb7bc12.png
image.png

在PowerShell中输入命令并运行: jupyter notebook
10345471-345147fa44dc6d19.png
image.png

PowerShell运行命令后,会自动打开网页,点击如下图所示网页中的按钮:
10345471-cbb4a0859de0e2d0.png
image.png

代码文件重命名为 tfidfVectorizerTest,重命名按钮位置如下图所示:
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值