20News数据集:包含了20种不同类型新闻的文档组合。下载地址:http://qwone.com/~jason/20Newsgroups/
(虽然才15M但是下了N久,最后发现不用下载anaconda还要在自动下一遍)
首先import进来数据集,并使用subset='test'或'train'从数据集里得到训练集和测试集。
导入Tfidfvectorizer用来对数据集和测试集进行向量空间模型处理
train使用vectorizer.fit_transform得到转化后的训练集
test使用vectorizer.transform到转化后的测试集(如果用vectorizer.fit_transform 在预测时会报错)
X_train即转化后的训练集,Y_train为转化前的训练集.target。test同理。
然后就是熟悉的把Xtrain、Ytrain放入某个model里fit一下,再把Xtest放入model里predict一下然后得到预测的y。
同时把xtest和实际ytest(target)放入model里score一下进行模型的评估。

贴上直接调用的代码,为了精确一些没有随机取维等降低时间。
# -*- coding: utf-8 -*-
"""
Created on Wed Jan 2 14:22:28 2019
@author: 71405
"""
from sklearn.datasets import fetch_20newsgroups as news
from sklearn.

最低0.47元/天 解锁文章
4985

被折叠的 条评论
为什么被折叠?



