NLP实战之基于sklearn+TfidfVectorizer/CountVectorizer+贝叶斯模型进行THUCNews文本分类python

最新推荐文章于 2025-05-27 18:19:13 发布

置顶

小白胖爱学习-

最新推荐文章于 2025-05-27 18:19:13 发布

阅读量9.8k

点赞数 2

文章标签：机器学习 python nlp 自然语言处理深度学习

本文链接：https://blog.youkuaiyun.com/m0_37723079/article/details/104613268

版权

本文使用THUCNews数据集的一个子集，通过sklearn库的TfidfVectorizer进行特征提取，并结合贝叶斯模型进行文本分类。数据预处理包括结巴分词和停词过滤。实验结果显示，模型准确率高达0.91，且调整贝叶斯模型的alpha参数能进一步优化结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据处理

首先介绍一下数据集：我们采用THUCNews数据集的子集，这是个链接（提取码：acvu）啦啦啦。完整数据自行去下哦 (地址：http://thuctc.thunlp.org/）~我们来看看这个数据，这个数据格式呢是一个样本是一条新闻，包括类别和内容。首先我们加载数据：

import pandas as pd
import jieba

#%%数据加载
f_train=open('C:/Users/29811/Desktop/NLP/03文本分类/cnews.train.txt',"rt", encoding='utf-8')
f_test=open('C:/Users/29811/Desktop/NLP/03文本分类/cnews.test.txt',"rt", encoding='utf-8')
train=pd.read_table(f_train,names=['类别','内容'])
test=pd.read_table(f_test,names=['类别'

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小白胖爱学习-

关注关注

2
点赞
踩
31

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

从0-1 用AI做一个赚钱的小红书账号（不是广告不是广告）

热门推荐

程序员-杨胡广的博客

09-17

1万+

小红书和抖音的主要变现模式不同，小红书侧重于广告变现、私域种草抖音变现模式多样，但是对于普通人难度更高，无论带货还是接广告，都更卷！想赚点小钱，搞点副业，就去小红书，想做大网红、直播带货，就去抖音，当然有能力可以2个平台都做，但是注意内容呈现逻辑。1. 爆款选题，一定是在平台上已经做火过的博主的选题基础上，继续去模仿、创造，不要自嗨，觉得自己写的选题很棒。对于新手做内容，只有跟着已经火过的内容做，才更容易火，找到做内容的自信！

5 条评论您还未登录，请先登录后发表或查看评论

1.5万字讲清楚从0到1搭建电商营销中心（建议收藏）

u010291330的博客

03-12

888

如sku参与了两个活动，根据活动命中规则，活动1优先命中，其次才是活动2，但是活动1的准入用户中没有用户a，活动2的准入用户中有用户a，此时用户a狗买该sku时，应该命中活动1还是活动2呢？因为抵扣类活动基本上完全叠加，因此可视为全部命中，其中优惠券的抵扣又有其特殊性，优惠券本身是一个庞大且独立的系统，优惠券又分不同的券类型，因此优惠券本身也存在命中的情况，如同一个sku被挂在了3张不同的优惠券上，并且用户恰好拥有这3张优惠券，当下单使用优惠券时，能使用几张券也有对应的规则，本文暂不展开券系统的设计说明。

用trae+deepseek帮我实现个给牛马打鸡血的工具（上）

强哥叨逼叨

05-12

678

从一个例子开始，理解互联网岗位分工

机器学习杂货铺1号店

02-09

768

今年应该又有不少牛马涌入互联网，简单用一个例子，讲下自己对互联网岗位分工的理解，欢迎评论区友好交流，保留文章著作权，请勿转载。互联网岗位可以粗糙地分为：专业序列和管理序列（有些公司是双轨制，有些公司的基层管理可能同时负责技术和管理），其中大部分牛马都应该是专业序列，大概可分为：职能岗（比如人力资源）、产品岗、技术岗、运营岗，其中我们熟悉的技术岗有可以继续细分到：开发岗位（前端、后端）、算法岗位、数据岗位、测试岗位、运维岗位、设计美术岗、基础建设岗位等等。

做了一个打工人时薪计算器(牛马计算器)

m0_48069349的博客

05-06

917

开源地址演示地址。

从牛马到自由奔腾，打工人如何破局？

weixin_48445672的博客

02-25

2158

不知从何时起，“牛马” 成了打工人挂在嘴边的自嘲之语。清晨，被闹钟从睡梦中粗暴拽起，睡眼惺忪地奔赴在拥挤的通勤路上，像被无形的鞭子驱赶着；到了公司，面对堆积如山的任务，埋头苦干，不敢有丝毫懈怠，宛如耕地的老牛，永不停歇。加班到深夜，城市早已被夜色笼罩，万家灯火闪烁，却好像没有一盏是为自己而留，此时的自己，可不就像那疲惫不堪仍在劳作的牛马？“牛马” 一词，看似是简单的调侃，实则饱含着当代打工人内心深处的迷茫与困境。我们努力工作，却常常感觉与自己的理想生活渐行渐远；薪资涨幅永远跟不上物价上涨的速度，生活的压力

FastAPI 从0到1（Jinja2和ORM篇）筛选

weixin_53970868的博客

10-27

1147

Jinja2是Flask作者开发的⼀个模板系统，仿照django模板的⼀个模板引擎，为Flask提供模板⽀持，有着灵活，快速和安全等优点。变量取值 {{ }}控制结构 {% %}

【成长记录——一个理科女生的牛马成长记录】

weixin_43096393的博客

07-30

1219

作为一个95后，我从小到大都是在按部就班地生活，在成长的过程中，鲜少有停下脚步，思考自己的处境和状态的时间。像很多同龄人一样，我习惯性地按照父母、朋友、社会的规划，扮演着一个乖乖女的角色，认真完成每一个成长阶段“应该”做的事情，这同时也给予了我一种“不会出错”的安全感。

1024程序员节 | 一个机械专业的牛马转行牛码的经历

Arya的博客，专注后端领域

10-20

1392

1024程序员节 | 一个机械专业的牛马转行牛码的经历

中国30个省的空间地理邻接矩阵（0-1矩阵）

11-01

这个文件和31个省的邻接矩阵数据的区别在于删除了西藏地区，考虑到部分研究缺少西藏地区数据，但是想做空间分析又不会操作的，此Excel数据也是处理好的原始数据，可以直接引用到stata等软件中直接构建W0-1矩阵。

牛马抽奖(1).zipPHP项目程序网站源码下载

03-05

牛马抽奖(1).zip 是一个包含PHP项目的压缩包，这个项目主要用于实现在线抽奖功能。在互联网应用中，抽奖活动是一种常见的吸引用户参与、增加用户黏性的手段，尤其适用于电商、社交、游戏等平台。此项目源码的提供，...

ChatGPT从0到1学习资料汇总，入门:原理:应用:场景:实操，最好的GPT学习中文文档.zip

04-29

如果你是一个纯粹的玩家，也不关心 ChatGPT 的是什么、为什么和能干什么，那么这个文档可能不太适合你。在这个文档里我们比较少地提及了具体的操作步骤，比如，怎么魔法上网，怎么注册账号，怎么把 ChatGPT 接入 ...

鸿蒙开发：CodeGenie，一个DevEcoStudio中自带的AI编程工具

知足常乐

05-23

1423

CodeGenie，它就是DevEcoStudio中一个自带的用于AI辅助编程的工具，最大的作用就是支持智能知识问答，同时支持ArkTS代码生成和万能卡片生成能力，帮助我们提高编码效率。

微丽宝、科技、相关内容

05-23

917

Anthropic公司推出的ClaudeAI系列模型，包括ClaudeOpus4和ClaudeSonnet4，代表了新一代AI技术的进步。ClaudeOpus4在编程和复杂任务处理方面表现卓越，特别是在代码生成、优化和调试上，其在SWE-bench和Terminal-bench测试中的高分证明了其领先地位。该模型还具备处理长时间任务的能力，并能进行高级推理和多模态任务。ClaudeSonnet4则在代码编辑和调试方面表现出色。此外，ClaudeAI引入了工具辅助的延伸思考、记忆文件管理等功能，显著提升了AI

借助AI编程，两周上线了一个网站。