Kaggle竞赛思路总结(sklearn方法)


我们借助sklearn库来完成kaggle竞赛,下面主要总结sklearn库在各个步骤中的作用以及基本kaggle竞赛思路和流程。 python3代码链接

一、获取,加载,预览数据

获取,加载,预览数据是为构造特征工程以及模型建立做准备。

  • 加载数据集,若是csv文件,用pandas.read_csv()读取为DataFrame格式文件。
  • 总体预览数据的基本信息,了解每列数据的含义,数据的格式等。
  • 数据初步分析,使用统计学与绘图来初步了解数据之间的相关性。

二、特征工程

见之前的博客《特征工程》
在数据预处理之前,一般会将测试集和训练集合并,处理结束后分开

1 数据预处理

见之前博客《机器学习之数据处理》
数据处理sklearn有一套流程,导入库如下。

import sklearn.preprocessing as preprocessing

主要三个方面

  • 数据缩放(scaling)及标准化处理(无量纲化),归一化
  • 缺失值处理(填充/舍弃,Imputer)
  • 类别特征处理(独热编码)

2 特征构建

属性分割和结合也是特征构建时常使用的方法。

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值