Excel数据分析实战1:Titanic生存率的分析

一、数据集

可以去kaggle下载:Titanic - Machine Learning from Disaster | Kaggle

二、数据集信息

数据集总共有以下的字段,其中name、sex、cabin、embarked、ticket是字符串类型,pclass和survived虽然是数值型,但其含义是标签,我们分别从舱位、乘客、船票和地域的维度出发来分析

舱位维度 pclass 舱位 1代表头等舱,2代表二等舱,3代表三等舱
cabin 客舱号
survived 是否生还,0代表死亡,1代表死亡
乘客维度 name 姓名
sex 性别
age 年龄
sibsp 兄弟姐妹/配偶的个数
parch 父母/小孩个数
船票维度 ticket 船票信息
fare 票价
地域维度 embarked 登船港口

三、数据处理

通过查看表 ,发现Age、fare、embarked、cabin字段有缺失。

 1.age缺失值处理

筛选age一列为空的有177条数据,可以全部填充为年龄的均值或众数,也可以进一步地分析,发现年龄缺失的数据里三等舱的最多,而三等舱里的未生还的男性占比最多,因此也可以用三等舱年龄的平均值来填充。

这里为了保持数据的真实性,就不做填充处理了。

2.Fare缺失值:Fare值都是0,不算是缺失值

3.Embark缺失值

进一步观察到,这两个旅客都是单独出行,没有家人(从sibsp和parch列均为0得知),寻找同类型的进行填充。对第一个旅客,筛选出头等舱的年龄在35~40岁的女性中,港口最多的值填充进去,结果是S。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值