泰坦尼克号数据分析 预测建模 准确率测算

通过对泰坦尼克号乘客数据的预处理、特征工程及模型训练,实现对乘客生存概率的有效预测。文章详细介绍了数据清洗、特征转换及模型评估的过程。

目录

本文思路:

1.搜集现有分析代码

https://blog.youkuaiyun.com/u013788252/article/details/105528116

2.原文中代码存在不足,对相关库的引入及运行异常没有说明完善,因此,对原代码进行了完善。

(运行环境: jupyter notebook python3)
完善后的完整代码:
下面展示 完整代码

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
get_ipython().run_line_magic('matplotlib', 'inline')
from sklearn.linear_model import LogisticRegressionCV
from sklearn.ensemble import RandomForestClassifier
from sklearn import tree
from sklearn.model_selection import train_test_split

path=r'C:\Users\Administrator\Desktop\titanic.csv' #导入数据,此处的数据为完整的数据集,后续会直接将数据集直接划分为训练集和测试集。划分方法为:库sklearn.model_selection 中的 train_test_split。

data = pd.read_csv(path)
data['Survived'].value_counts().plot.pie(autopct='%0.2f%%')
# In[22]:
data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar()
# In[23]:
data[['Pclass','Survived']].groupby(['Pclass']).mean().plot.bar()
# In[24]:
# 按照年龄,将乘客划分为儿童、少年、成年和老年,分析四个群体的生还情况
bins = [0, 12, 18, 65, 100]
data['Age_group'] = pd.cut(data['Age'], bins)
by_age = data.groupby('Age_group')['Survived'].mean()
by_age.plot.bar()
# In[25]:
fig, ax = plt.subplots(1, 2, figsize = (18, 8))
sns.violinplot("Pclass", "Age", hue="Survived", data=data, split=True, ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
# ax[0
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值