大学计算机基础python第二次作业_python第二次作业-titanic数据库练习

本文档展示了如何对 Titanic 数据集进行数据清洗,包括删除无效列、处理重复值和缺失值。接着,进行了统计分析,如乘客存活和死亡人数、性别分布、获救情况、船舱等级人数以及票价与舱位等级的关系。通过分析发现舱位与存活率呈负相关,票价和舱位等级的箱体图揭示了一等舱票价波动较大。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗。

titanic数据集包含11个特征,分别是:

Survived:0代表死亡,1代表存活

Pclass:乘客所持票类,有三种值(1,2,3)

Name:乘客姓名

Sex:乘客性别

Age:乘客年龄(有缺失)

SibSp:乘客兄弟姐妹/配偶的个数(整数值)

Parch:乘客父母/孩子的个数(整数值)

Ticket:票号(字符串)

Fare:乘客所持票的价格(浮点数,0-500不等)

Cabin:乘客所在船舱(有缺失)

Embark:乘客登船港口:S、C、Q(有缺失)

import pandas as pd

titanic = pd.read_excel('D:\Chrome下载/titanic-2.xlsx')

titanic.head()

1790980-20191016101239183-199617273.png

# 删除无效列与行

titanic.drop('embark_town', axis=1, inplace=True)

titanic.head()

1790980-20191016101552180-1721644650.png

#删除掉重复值

titanic=titanic.drop_duplicates()

titanic.head()

1790980-20191016101811020-2040369554.png

#缺失值与空值的处理

titanic['who'].isnull().value_counts()

1790980-20191016102039941-674449180.png

#异常值替换为平均值

titanic.describe()

titanic.replace([512.329200],titanic['fare'].mean())

1790980-20191016102156816-1927620133.png

二、对titanic数据集完成以下统计操作

1.统计乘客死亡和存活人数

alive = titanic['survived'].value_counts()

print('乘客存活%s人,死亡%s人'%(alive[1],alive[0]))

1790980-20191016101024511-2067931125.png

2.统计乘客中男女性别人数

sex = titanic['sex'].value_counts()

print('乘客中男性%s人,女性%s人'%(sex['male'],sex['female']))

1790980-20191016101130230-2063264909.png

3.统计男女获救的人数

rescued = titanic.groupby('survived')['sex'].value_counts().unstack()

print('男性%s获救,女性%s获救'%(rescued.loc[1,'male'],rescued.loc[1,'female']))

1790980-20191016102358951-1891076006.png

4.统计乘客所在的船舱等级的人数

pclass = titanic['pclass'].value_counts()

print('乘客所在一等舱%s人,二等舱%s人,三等舱%s人'%(pclass[1],pclass[2],pclass[3]))

1790980-20191016102736761-1002697593.png

5.使用corr()函数,判断两个属性是否具有相关性,分析舱位的高低和存活率的关系

titanic['survived'].corr(titanic['pclass'])

1790980-20191016103115460-201207793.png

由此可看出是负相关性,即舱位越高,存活率越低。

6.画出乘客票价与舱位等级的箱体图Boxplot,从图中能够得到哪些结论?

titanic.boxplot(['fare'],['pclass'])

1790980-20191016103711539-1631109885.png

从图中可以看出一等票价格浮动较大,二等和三等价格浮动较小

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值