达观杯数据竞赛 01

比赛地址

这是一个NLP类型的数据比赛,小白一个,初步了解

学习目标:

1. 下载数据,读取数据,观察数据

2. 将训练集拆分为训练集和验证集。要求:数据3-7分,随机种子2019

3. 分享自己对数据以及赛题的理解和发现

 首先导入读取数据和分割数据所需要用的Python包

import pandas as pd
from sklearn.model_selection import train_test_split

数据分为两个部分,一个训练集文件,一个测试集文件,分别读取

#读取训练集数据
data1 = pd.read_csv('train_set.csv')
data1.head()

 

#读取测试集数据
data2 = pd.read_csv('test_set.csv')
data2.head()

 完成数据集的划分

#训练样本特征集
data1_train_data = data1[['id','article','word_seg']]
#训练样本标签
data1_train_target = data1['class']

x_train,x_test,y_train,y_test = train_test_split(data1_train_data,data1_train_target,test_size = 0.3,random_state = 2019)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值