前面几天已经将数据全部处理完ta毕,并熟悉了pandas处理数据的基本操作。最后就使用sklearn库来最终解决这个问题,分析测试集中哪些人可以存活。
首先将训练集做去空处理,清理掉训练集中的空数据。pandas中,mean()函数就是求平均值的意思。
之后再对数据进行转码,转换为one-hot便于分析。
如果数据集本身并不是随机取样的,比如按照时间先后收集或者先收集高等舱再收集低等舱,就需要随机选取,使得各种样本充分混合。
切割数据集方面,python语法允许用元组同时给多个元素赋值,而sklearn为我们提供了一个一步到位的函数train_test_split()。
由于问题训练集已知结果,而且预测的值只有有限种(2种)可能,所以属于“分类”问题。对于此问题,可以使用决策树或者Logistic回归的方法。