一、数据集
可以去kaggle下载:Titanic - Machine Learning from Disaster | Kaggle
二、数据集信息

数据集总共有以下的字段,其中name、sex、cabin、embarked、ticket是字符串类型,pclass和survived虽然是数值型,但其含义是标签,我们分别从舱位、乘客、船票和地域的维度出发来分析
| 舱位维度 | pclass 舱位 | 1代表头等舱,2代表二等舱,3代表三等舱 |
| cabin | 客舱号 | |
| survived | 是否生还,0代表死亡,1代表死亡 | |
| 乘客维度 | name | 姓名 |
| sex | 性别 | |
| age | 年龄 | |
| sibsp | 兄弟姐妹/配偶的个数 | |
| parch | 父母/小孩个数 | |
| 船票维度 | ticket | 船票信息 |
| fare | 票价 | |
| 地域维度 | embarked | 登船港口 |
三、数据处理
通过查看表 ,发现Age、fare、embarked、cabin字段有缺失。


1.age缺失值处理
筛选age一列为空的有177条数据,可以全部填充为年龄的均值或众数,也可以进一步地分析,发现年龄缺失的数据里三等舱的最多,而三等舱里的未生还的男性占比最多,因此也可以用三等舱年龄的平均值来填充。

这里为了保持数据的真实性,就不做填充处理了。
2.Fare缺失值:Fare值都是0,不算是缺失值
3.Embark缺失值

进一步观察到,这两个旅客都是单独出行,没有家人(从sibsp和parch列均为0得知),寻找同类型的进行填充。对第一个旅客,筛选出头等舱的年龄在35~40岁的女性中,港口最多的值填充进去,结果是S。

最低0.47元/天 解锁文章
1079

被折叠的 条评论
为什么被折叠?



