使用sklearn和tf-idf变换的针对20Newsgroup数据集做文本分类

20News数据集:包含了20种不同类型新闻的文档组合。下载地址:http://qwone.com/~jason/20Newsgroups/

(虽然才15M但是下了N久,最后发现不用下载anaconda还要在自动下一遍)

首先import进来数据集,并使用subset='test'或'train'从数据集里得到训练集和测试集。

导入Tfidfvectorizer用来对数据集和测试集进行向量空间模型处理

train使用vectorizer.fit_transform得到转化后的训练集

test使用vectorizer.transform到转化后的测试集(如果用vectorizer.fit_transform 在预测时会报错)

X_train即转化后的训练集,Y_train为转化前的训练集.target。test同理。

然后就是熟悉的把Xtrain、Ytrain放入某个model里fit一下,再把Xtest放入model里predict一下然后得到预测的y。

同时把xtest和实际ytest(target)放入model里score一下进行模型的评估。

贴上直接调用的代码,为了精确一些没有随机取维等降低时间。

# -*- coding: utf-8 -*-
"""
Created on Wed Jan  2 14:22:28 2019

@author: 71405
"""


from sklearn.datasets import fetch_20newsgroups as news
from sklearn.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值