【任务1 - 数据分析(2天)】 要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018 任务1:对数据进行探索和分析。时间:2天 数据类型的分析 无关特征删除 数据类型转换 缺失值处理 ……以及你能想到和借鉴的数据分析处理
- 读入数据
import pandas as pd
data = pd.read_csv("F:/data_mining/data.csv",encoding='ISO-8859-15')
- 无关特征删除
data.drop('id_name',axis = 1, inplace = True)
- 缺失值处理
data=data.dropna()
- 数据分类
StratifiedShuffleSplit(n_splits=1, test_size=0.3, train_size=0.7, random_state=2018)