Python机器学习及实践——实战篇:泰坦尼克号罹难乘客预测
项目背景:
泰坦尼克号是一艘奥林匹克级邮轮,于1912年4月处女航时撞上冰山后沉没。泰坦尼克号由位于爱尔兰岛贝尔法斯特的哈兰德与沃尔夫造船厂兴建,是当时最大的客运轮船。在它的处女航中,泰坦尼克号从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,计划中的目的地为美国纽约。1912年4月14日,船上时间夜里11时40分,泰坦尼克号撞上冰山;4月15日凌晨2时20分,船裂成两半后沉入大西洋。泰坦尼克号海难为和平时期死伤人数最惨重的海难之一。船上1500多人丧生。
提出问题
预测泰坦尼克号乘客的生存情况
数据集
下载test.csv和train.csv。
说明:test.csv是训练数据集;train.csv是测试数据集。
数据理解
先读取数据集。
import pandas as pd
# 读取训练集和测试集
train = pd.read_csv('./train.csv')
test = pd.read_csv('./test.csv')
# 输出数据集的基本信息
print(train.inf