使用sklearn和tf-idf变换的针对20Newsgroup数据集做文本分类

最新推荐文章于 2025-08-24 11:24:10 发布

原创

最新推荐文章于 2025-08-24 11:24:10 发布 · 2.5k 阅读

11 ·

CC 4.0 BY-SA版权

20News数据集：包含了20种不同类型新闻的文档组合。下载地址：http://qwone.com/~jason/20Newsgroups/

（虽然才15M但是下了N久，最后发现不用下载anaconda还要在自动下一遍）

首先import进来数据集，并使用subset='test'或'train'从数据集里得到训练集和测试集。

导入Tfidfvectorizer用来对数据集和测试集进行向量空间模型处理

train使用vectorizer.fit_transform得到转化后的训练集

test使用vectorizer.transform到转化后的测试集（如果用vectorizer.fit_transform 在预测时会报错）

X_train即转化后的训练集，Y_train为转化前的训练集.target。test同理。

然后就是熟悉的把Xtrain、Ytrain放入某个model里fit一下，再把Xtest放入model里predict一下然后得到预测的y。

同时把xtest和实际ytest（target）放入model里score一下进行模型的评估。

贴上直接调用的代码，为了精确一些没有随机取维等降低时间。

# -*- coding: utf-8 -*-
"""
Created on Wed Jan  2 14:22:28 2019

@author: 71405
"""


from sklearn.datasets import fetch_20newsgroups as news
from sklearn.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Type真是太帅了

关注关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

团体程序设计天梯赛-L1组（L1-001 ~ L1-100）

weixin_41801682的博客

04-06

4985

团体程序设计天梯赛-L1组

【Python】20Newsgroup文本分类（TF-IDF向量化，十种sklearn分类器）

○( ＾皿＾)っHiahiahia…的博客

05-29

6119

数据集介绍 数据集链接：http://qwone.com/~jason/20Newsgroups/（比较慢，建议Science上网）当然这里用不到这个数据集，sklearn导入会自动下载，倘若比较慢，可参考：sklearn.datasets.fetch_20newsgroups的下载速度极慢采用离线下载导入等别的方法具体实践中，稍等了一会儿就好了的。 sklearn自带数据集datasets，划分好训练集和测试集了。 from sklearn.datasets import fetch_20newsgr

参与评论您还未登录，请先登录后发表或查看评论

20 Newsgroups数据集（包括20news-19997、20news-bydate和20news-18828三个数据集）

07-31

20 Newsgroups数据集是大约20,000个新闻组文档的集合，在20个不同的新闻组中几乎均匀划分。20 Newsgroups数据集已经成为机器学习技术相关实验的常用数据集，例如文本分类和文本聚类实验。

20newsgroup

08-14

20newsgroup数据集是机器学习中的一个标准数据集。它包含18828个文档，来自于20个不同的新闻组。该资源包含一个原信息文件和3个目录：test、train和raw。测试和训练目录将整个数据集切分为60%的训练和40%的测试文档。

20 newsgroups数据介绍以及文本分类实例

最新发布

q5r6s7的博客

08-24

本博客全面解析了深度学习和机器学习中的数据编码与文本处理技术。内容涵盖分类特征的整数编码和独热编码方法，文本数据的词袋模型、TF-IDF向量化、n-元语法和哈希技巧等处理方式，并介绍了分词、词干提取等自然语言处理基础。通过实际案例展示了如何将这些方法应用于新闻分类任务，并总结了不同方法的适用场景及注意事项。适合数据科学家和机器学习开发者参考学习。

特征值和特征向量的直觉

gongdiwudu的专栏

08-08

1183

在本文中，我们将通过简单的类比、清晰的解释和动手示例来揭开特征向量和特征值背后的神秘面纱。让我们一起探讨为什么这些概念在简化复杂数据和发现隐藏的见解方面如此重要。

机器学习笔记（4） -- 文本分类实例（20Newgroups数据集）

Weixiaoooooooo的博客

08-21

5202

1. 问题定义在这个项目中会采用20Newgroups的数据，这是在网上非常流行的对文本进行分类和聚类的数据集。数据集中的数据分为两部分，一部分是用来训练算法模型的数据，一部分是用来评估算法的新数据。网上还提供了3个数据集，这里采用了20new-bydate这个数据集进行项目研究。这个数据集是按照日期进行排序的，并去掉了部分重复数据和header，共包含18846个文档。 2.导入数据这里使用...

20-newsgroups-Text-Classification:使用 20 个新闻组数据集，使用 python 实现文本分类算法

05-29

20个新闻组文本分类 本笔记本包含使用数据集、使用和库的文本分类实现，以及使用库的一些模型解释。本笔记本随附的博客文章：

20 News groups

02-01

在学习文本聚类算法中，常用的数据集就是20Newsgroup，该数据集包含8个类，每个类1000个文本，共计8000个文本。我根据tf-idf，将数据分别提取成100维，200维和1000维数据集。而且对这些维数的标签进行了说明。想要学习文本聚类的朋友，可以用来测试

20newsgroup python分类聚类

04-13

http://blog.youkuaiyun.com/abcjennifer/article/details/23615947

20_News_Groups_Dataset(20个新闻组数据集)

05-13

20_News_Groups_Dataset(20个新闻组数据集)

20_newsgroups

04-15

20_newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档，均匀分为20个不同主题的新闻组集合。

已预处理 NLP 英文语料库新闻组 20_Newsgroup(单标签英文平衡语料)

08-26

已做预处理：分词、剔除停用词可直接拿来统计建立文本模型

使用Logistic回归20newsgroups文本分类

Graceguanguan的博客

03-01

688

import numpy as np import matplotlib.pyplot as plt import timeit from sklearn.datasets import fetch_20newsgroups_vectorized from sklearn.linear_model import LogisticRegression from sklearn.mod...

Mahout 用朴素贝叶斯对20 Newsgroups 数据分类的案例

Ichimaru_Gin_的博客

01-22

1056

源起《Mahout in Action(Mahout 实战)》这本书的第14.6节有一个用朴素贝叶斯对20 Newsgroups 进行数据分类的案例，但是由于该出出版使用的是mahout0.6版本进行的实验，我用目前最新的0.13版本已经不能再重复这个实验了（mahout做了很多改动）。 ERROR MahoutDriver: : Try the new vector backed naiv

ML之NB：基于20newsgroups数据集(20类新闻文本)利用NB朴素贝叶斯算法(CountVectorizer/TfidfVectorizer+去除停用词)进行分类预测、评估

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

03-03

1万+

ML之NB：基于20newsgroups数据集(20类新闻文本)利用NB朴素贝叶斯算法(CountVectorizer/TfidfVectorizer+去除停用词)进行分类预测、评估目录相关文章基于20newsgroups数据集(20类新闻文本)利用NB朴素贝叶斯算法(CountVectorizer/TfidfVectorizer+去除停用词)进行分类预测、评估相关文章 ML之NB：基于news新闻文本数据集利用纯统计法、kNN、朴素贝叶斯(高斯/多元伯努利/多项式)、

基于BERT模型的20Newsgroups文本分类实战教程

gitblog_01100的博客

06-19

321

在自然语言处理(NLP)领域，文本分类是一项基础且重要的任务。随着深度学习技术的发展，预训练语言模型如BERT已经显著提升了文本分类的性能。本文将详细介绍如何使用BERT模型对20Newsgroups数据集进行微调(fine-tuning)，实现高效的文本分类。 ## 环境准备首先需要安装必要的Python库： ```python !pip install --upgrade --user...