基于jieba、TfidfVectorizer、LogisticRegression的搜狐新闻文本分类

最新推荐文章于 2025-06-21 23:14:37 发布

xiaosakun

最新推荐文章于 2025-06-21 23:14:37 发布

阅读量1.4k

点赞数 3

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xiaosa_kun/article/details/84868437

本文介绍了如何使用jieba进行中文分词，结合TfidfVectorizer和LogisticRegression模型对搜狐新闻文本进行分类。通过数据预处理、模型训练和评估，最终得到一个在测试集上表现优秀的分类模型。

学习资源来源：容大教育，致以诚挚的谢意。
重新编辑：潇洒坤

jieba中文叫做结巴，是一款中文分词工具，官方文档链接：https://github.com/fxsjy/jieba
TfidfVectorizer中文叫做词袋向量化模型，是用来文章内容向量化的工具，官方文档链接：http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
LogisticRegression中文叫做逻辑回归模型，是一种基础、常用的分类方法。

建议读者安装anaconda，这个集成开发环境自带了很多包。
到2018年9月1日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex
官网下载地址：https://repo.anaconda.com/archive/Anaconda3-5.2.0-Windows-x86_64.exe
下面代码的开发环境为jupyter notebook，使用在jupyter notebook中的截图表示运行结果。

0.打开jupyter

在桌面新建文件夹命名为基于TfidfVectorizer的文档分类，如下图所示:

image.png

打开 基于TfidfVectorizer的文档分类文件夹，在按住Shift键的情况下，点击鼠标右键，出现如下图所示。
选择 在此处打开PowerShell窗口，之后会在此路径下打开PowerShell。

image.png

在PowerShell中输入命令并运行： jupyter notebook

image.png

PowerShell运行命令后，会自动打开网页，点击如下图所示网页中的按钮：

image.png

代码文件重命名为 tfidfVectorizerTest，重命名按钮位置如下图所示：

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。