目标
使用泰坦尼克号乘客数据(名字,年龄,票价等)预测谁将存活或者死去。
数据
在数据中有三份文件:(1) train.csv, (2) test.csv, and (3) gender_submission.csv.
(1) train.csv
train.csv 包含机上乘客子集的详细信息(确切地说是891名乘客——每个乘客在表中都有不同的一行。
第二列中的值( “幸存” )可用于确定每个乘客是否幸存:
- 如果是“1”,乘客就活了下来。
- 如果是“0”,则乘客死亡。
例如,train.csv 中列出的第一位乘客是 Owen Harris Braund 先生。他在泰坦尼克号上去世时22岁。
(2) test.csv
使用您在 train.csv 中训练的模型,预测船上其他418名乘客(在 test.csv 中)是否幸存。
(3) gender_submission.csv
提供了gender_submition.csv文件作为示例,该文件显示了您应该如何构建预测。据预测,所有女性乘客幸存,所有男性乘客死亡。你关于生存的假设可能会有所不同,这将导致不同的提交文件。但是,就像这个文件一样,您提交的文件应该有:
- PassengerId"; 列,其中包含test.csv中每个乘客的ID。
- 幸存的"; 列(您将创建!),其中“1”表示您认为乘客幸存的行,“0”表示您预测乘客死亡的行。
过程
代码
- 导入所需要的库和训练集:
import pandas as pd
train_data = pd.read_csv('data/titanic/train.csv')
train_data.head()
输出:
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 0 | 3 | Braund, Mr. Owen Harris | male | 22.0 | 1 | 0 | A/5 21171 | 7.2500 | NaN | S |
1 | 2 | 1 | 1 | Cumings, Mrs. John Bradley (Florence Briggs Th... | female | 38.0 | 1 | 0 | PC 17599 | 71.2833 | C85 | C |
2 | 3 | 1 | 3 | Heikkinen, Miss. Laina | female | 26.0 | 0 | 0 | STON/O2. 3101282 | 7.9250 | NaN | S |
3 | 4 | 1 | 1 | Futrelle, Mrs. Jacques Heath (Lily May Peel) | female | 35.0 | 1 | 0 | 113803 | 53.1000 | C123 | S |
4 | 5 | 0 | 3 | Allen, Mr. William Henry | male | 35.0 | 0 | 0 | 373450 | 8.0500 | NaN | S |
- 导入测试集:
train_data = pd.read_csv('data/titanic/train.csv')
train_data.head()
输出: