文章目录
数据下载链接
链接:https://www.kaggle.com/c/titanic/data
或者去网盘下载:
链接: https://pan.baidu.com/s/174qUpR2PDsrXrVOSenBUEA 提取码: qw67
背景
1921年4月15日,泰坦尼克号与冰山相撞,2224 名乘客和船员中有1502人丧生,虽然在沉船中幸存下来有一些运气因素,但是运气因素之外,是否还有其他因素呢?
理解问题
- 目的:预测泰坦尼克号上的游客能否存活
- 问题类型:只有幸存和遇难两个结果,所以是二元分类问题
- 衡量标准:准确度(accuracy)
观察数据
这一步主要是要了解数据的概况:数据的维度、属性的名称、属性的类型、缺失值情况等。
#加载库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#加载文件,注意:路径名称如果有中文,加上参数engine = 'python'
train_df = pd.read_csv('train.csv', engine = 'python')
train_df.head(3)
#查看数据的维度
print('===数据维度:{:}行{:}列===\n'.format(train_df.shape[0],train_df.shape[1]))
#查看每列的名称、含义、数据类型
print('===各列数据类型如下:===')
train_df.info()
#查看各列的缺失值情况
print('\n===各列的缺失值情况如下:===')
train_df.isnull().sum()
数据预览如下
数据基本情况如下
可以看到,共有891个观测值,12个属性,其中,Age属性缺失177个值,Cabin属性缺失687个值,Embarked缺失两个值
- 分类变量有PassengerId,Pclass,Name,Embarked等
- 数值变量有Age、Fare等
各个变量的含义: - PassengerId