泰坦尼克号:数据分析
数据:12个字段;训练集892条记录;测试数据集:418条记录
?PassengerId => 乘客ID
?Pclass => 乘客等级(1/2/3等舱位)
?Name => 乘客姓名
?Sex => 性别
?Age => 年龄
?SibSp => 堂兄弟/妹个数
?Parch => 父母与小孩个数
?Ticket => 船票信息
?Fare => 票价
?Cabin => 客舱
?Embarked => 登船港口
目标:预测测试数据中418个人最终是否得救
结果:准确率97.37%
如此高的准确率,让人惊奇,但是看完歪果仁的python代码,感觉并没有使用很高深的算法,但是准确率就是内么的高,不得不佩服他们怎么能把如此复杂的问题,使用如此简单的办法解出来的。
主要思路: 主要利用 3个字段 性别,乘客等级,票价
分别把票价分成四个级别:0~10,10~20,20~30,30~max