最近陆续准备熟悉一下sklearn库,在此做一下记录。
这篇文章是简短的对于decision tree的kaggle上的实战记录,详细的请见github
一.数据集:
是一个二分类问题,给你每个人的一些feature,判断最后是否会Survive。
二.数据处理:
参考here
1.丢弃无用的'PassengerId','Name','Ticket'特征
2.Embarked,one-hot编码,缺失值填众数'S'
3.Fare,缺失值用中位数填充
4.Age,缺失值用(mean-std,mean+std)的随机数填充,
5.Cabin,缺失值过多,直接删掉
6.将SibSp 和 Parch合并成一个feature——family
7.通过分析,儿童(Age<16) Survival的概率很大,因此sex分为males,females,child