泰坦尼克号数据分析

本文通过对泰坦尼克号数据的分析,探讨了舱位、性别、年龄、票价等因素对乘客生还率的影响。结果显示,头等舱生还率最高,女性生还率远超男性,0~15岁少年生还率最高,票价500-550的人群存活比例为100%。此外,S港口登船人数最多,但C港口生还率最高。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是一个很经典的案例,很多博主都写过,对,就是它:泰坦尼克号生存率的分析,它是kaggle上的一道题,通过船上乘客的信息分析和建模,预测哪些乘客得以生还。

我们就非常粗暴地拿这个数据集做一个简单的分析好了。

使用工具:Excel
(对,就是这么简单粗暴)

数据源的获取可后台回复:泰坦尼克

一、明确目的

1912年泰坦尼克号撞上冰山沉没,船上2224名乘客和机组人员中有1502人遇难,幸存下来的人是出于运气还是存在一定的规律?这是我们比较关心的,所以就要提出问题:

那些人士生还的可能性大?

其次了解数据,数据集总共有以下的字段,其中name、sex、cabin、embarked、ticket是字符串类型,pclass和survived虽然是数值型,但其含义是标签,我们分别从舱位、乘客、船票和地域的维度出发来分析。

二、数据处理

通过查看,发现Age、fare、embarked、cabin字段都是有缺失的,下面我们一个一个来看。

1、age缺失值处理

筛选age一列为空的有263条数据,缺失率为20%,可以全部填充为年龄的均值或众数,也可以进一步地分析,发现年龄缺失的数据里三等舱的最多,占总缺失值的79%,而三等舱里的未生还的男性占比最多,因此也可以用三等舱年龄的平均值来填充。

这里为了保持数据的真实性,就不做填充处理了。

2、fare缺失值处理

筛选发现fare(票价)只缺失了一个值,我们把它找出来,发现可以用同类型的均值填充掉。


因此我们筛选三等舱、年龄大于60岁的,登船港口为S的男性的均值票价7来填充这个缺失值。

3、embarked缺失值处理

embarked登船港口字段也有2个缺失值,筛选出来看下。


进一步观察到,这两个旅客都是单独出行,没有家人(从sibsp和parch列均为0得知),延续对fare缺失值处理的思路,寻找同类型的进行填充。对第一个旅客,筛选出头等舱的年龄在35~40岁的女性中,港口最多的值填充进去,结果是S。

同样的方法,对第二个旅客,筛选头等舱年龄在60~65岁的女性中,登陆港口最多的值,结果也为S。

4、cabin缺失值处理

对于cabin(客舱)字段缺失值达到了77%,缺失太多了,就不做填充处理了,直接保留或删除,这里先保留着吧。

三、数据分析

1、舱位维度

pclass
对舱位和生还情况分析,插入数据透视表


生还的人里,头等舱的占比达到了40%。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

进击的可乐!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值