NLP实战之基于sklearn+TfidfVectorizer/CountVectorizer+贝叶斯模型进行THUCNews文本分类python

本文使用THUCNews数据集的一个子集,通过sklearn库的TfidfVectorizer进行特征提取,并结合贝叶斯模型进行文本分类。数据预处理包括结巴分词和停词过滤。实验结果显示,模型准确率高达0.91,且调整贝叶斯模型的alpha参数能进一步优化结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据处理

首先介绍一下数据集:我们采用THUCNews数据集的子集,这是个链接(提取码:acvu)啦啦啦。完整数据自行去下哦 (地址:http://thuctc.thunlp.org/)~我们来看看这个数据,这个数据格式呢是一个样本是一条新闻,包括类别和内容。首先我们加载数据:

import pandas as pd
import jieba

#%%数据加载
f_train=open('C:/Users/29811/Desktop/NLP/03文本分类/cnews.train.txt',"rt", encoding='utf-8')
f_test=open('C:/Users/29811/Desktop/NLP/03文本分类/cnews.test.txt',"rt", encoding='utf-8')
train=pd.read_table(f_train,names=['类别','内容'])
test=pd.read_table(f_test,names=['类别'
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值