目录
一、数据摸底
1.1 数据加载
数据下载路径:https://www.kaggle.com/c/titanic/data
import pandas as pd
data_train = pd.read_csv("../train.csv")
data_predict = pd.read_csv("../test.csv")
full = data_train.append(data_predict, ignore_index=True) #合并训练集和测试集,对特征统一处理
1.2 数据统计描述和可视化
1、数据类型查看
full.head()
类别变量:Cabin、Embarked、Pclass、Sex、Survived
连续数值变量:Age、Fare
离散数值变量:Parch、SibSp
2、特征缺失值查看
full.info()
Cabin有77%的数据缺失,应舍弃;
Age有20%的数据缺失,考虑用平均值填充;
Fare、Embarked有几条数据缺失,分别考虑用平均值、众数填充。
3、变量统计描述
数值型变量统计描述
full.describe()
年龄在[65,80]的乘客占比1%,full['Age'].describe(percentiles=[0.98,0.99])
票价大于500的乘客占比小于1%,full['Fare'].describe(percentiles=[0.98,0.99])
没有携带父母和孩子的乘客占比75%;
在三等舱的乘客占比大约50%;
携带配偶的乘客占比大约30%;
类别变量统计描述
full.describe(include=['O'])
乘客登船地点有三个,主要集中在S站;
男性乘客占比64.4%。
4、特征变量与目标变量的相关性
类别变量与目标变量的相关性
data_train[