我们借助sklearn库来完成kaggle竞赛,下面主要总结sklearn库在各个步骤中的作用以及基本kaggle竞赛思路和流程。 python3代码链接
一、获取,加载,预览数据
获取,加载,预览数据是为构造特征工程以及模型建立做准备。
- 加载数据集,若是csv文件,用pandas.read_csv()读取为DataFrame格式文件。
- 总体预览数据的基本信息,了解每列数据的含义,数据的格式等。
- 数据初步分析,使用统计学与绘图来初步了解数据之间的相关性。
二、特征工程
见之前的博客《特征工程》
在数据预处理之前,一般会将测试集和训练集合并,处理结束后分开
1 数据预处理
见之前博客《机器学习之数据处理》
数据处理sklearn有一套流程,导入库如下。
import sklearn.preprocessing as preprocessing
主要三个方面
- 数据缩放(scaling)及标准化处理(无量纲化),归一化
- 缺失值处理(填充/舍弃,Imputer)
- 类别特征处理(独热编码)
2 特征构建
属性分割和结合也是特征构建时常使用的方法。