数据来源:Kaggle数据集 → 共有1309名乘客数据,其中891是已知存活情况(train.csv),剩下418则是需要进行分析预测的(test.csv)
字段意义:
PassengerId: 乘客编号
Survived :存活情况(存活:1 ; 死亡:0)
Pclass : 客舱等级
Name : 乘客姓名
Sex : 性别
Age : 年龄
SibSp : 同乘的兄弟姐妹/配偶数
Parch : 同乘的父母/小孩数
Ticket : 船票编号
Fare : 船票价格
Cabin :客舱号
Embarked : 登船港口
目的:通过已知获救数据,预测乘客生存情况
研究问题:
1、整体来看,存活比例如何?
要求:
① 读取已知生存数据train.csv
② 查看已知存活数据中,存活比例如何?
提示:
① 注意过程中筛选掉缺失值之后再分析
② 这里用seaborn制图辅助研究
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
import os
os.chdir('C:/Users/Administrator/Desktop/项目15泰坦尼克号获救问题')
df_train = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')
#查看已知存活数据中,存活比例如何
data_survived = df_train[df_train['Survived'] == 1]
survived_pre = len(data_survived)/len(df_train)
sns.set()
sns.set_style('ticks')
plt.axis('equal')
df_train['Survived'].value_counts().plot.pie(autopct='%1.2f%%')
2、结合性别和年龄数据,分析幸存下来的人是哪些人?
要求:
① 年龄数据的分布情况
② 男性和女性存活情况
③ 老人和小孩存活情况
df_train_age = df_train[df_train['Age'].notnull()]
plt.figure(figsize=(12,5))
plt.subplot(121)
df_train_age['Age'].hist(bins=70,edgecolor='black')
plt.xlabel = 'Age'
plt.ylabel = 'Num'
plt.subplot(122)
#df_train_age['Age'].boxplot(column='Age',showfliers=False)
#AttributeError: 'Series' object has no attribute 'boxplot'
d