直方统计图:

本文通过绘制原始与处理后的年龄分布图,展示了Titanic数据集中年龄特征的处理过程。利用均值与标准差填充缺失值,并分析了年龄分布规律,揭示了乘客年龄结构特点。

代码如下:

#年龄的处理

#画图,面板处理
fig,(axis1,axis2)=plt.subplots(1,2,figsize=(15,4))
axis1.set_title("original age values-Titanic")
axis2.set_title("New Age values -tatanic")

#提取年龄的均值,方差和缺失值个数
averager_age_train=train_data["Age"].mean()
std_age_trian=train_data["Age"].std()
count_nan_age_train=train_data["Age"].isnull().sum()

averager_age_test=test_data["Age"].mean()
std_age_test=test_data["Age"].std()
count_nan_age_test=test_data["Age"].isnull().sum()

#产生和原数据一样的分布,和缺失值个数相同的数据
rand1=np.random.randint(averager_age_train-std_age_trian,averager_age_train+std_age_trian,size=count_nan_age_train)
rand2=np.random.randint(averager_age_test-std_age_test,averager_age_test+std_age_test,size=count_nan_age_test)

#画原图
train_data["Age"].dropna().astype(int).hist(bins=70,ax=axis1)

#把缺失值补上
train_data["Age"][np.isnan(train_data["Age"])]=rand1
test_data["Age"][np.isnan(test_data["Age"])]=rand2

train_data["Age"]=train_data["Age"].astype(int)
test_data["Age"]=test_data["Age"].astype(int)

#画补上之后的年龄分布
train_data["Age"].hist(bins=70,ax=axis2)

#结论
#1.年龄以25左右的这个段的最多
#2.婴儿也有,呈递减的规律
#3.次高峰是35,后面随着年龄增加,人数变得小

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值