[kaggle]Titanic生还概率预测,accuracy-0.79425

该博客详述了作者在Kaggle Titanic竞赛中进行数据摸底、预处理和模型构建的过程。通过分析数据类型、特征缺失值、统计描述及变量相关性,发现如性别、船舱等级、登船地点等因素对生还率有显著影响。作者使用名字字符串提取title,填充缺失值,将类别变量转化为数值型,离散化连续变量,并创建组合特征。最终,采用随机森林(rf)模型进行预测,实现0.79425的accuracy。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、数据摸底

1.1 数据加载

1.2 数据统计描述和可视化

1、数据类型查看

2、特征缺失值查看

3、变量统计描述

4、特征变量与目标变量的相关性

二、数据预处理

2.1 名字字符串提取title

2.2 缺失值填充

2.3 类别变量转化为数值型

2.4 连续变量转化为离散型

2.5 组合特征变量

三、模型构建

1、rf模型


一、数据摸底

1.1 数据加载

数据下载路径:https://www.kaggle.com/c/titanic/data

import pandas as pd

data_train = pd.read_csv("../train.csv")
data_predict = pd.read_csv("../test.csv")

full = data_train.append(data_predict, ignore_index=True) #合并训练集和测试集,对特征统一处理

1.2 数据统计描述和可视化

1、数据类型查看

full.head()

类别变量:Cabin、Embarked、Pclass、Sex、Survived

连续数值变量:Age、Fare

离散数值变量:Parch、SibSp

2、特征缺失值查看

full.info()

Cabin有77%的数据缺失,应舍弃

Age有20%的数据缺失,考虑用平均值填充

Fare、Embarked有几条数据缺失,分别考虑用平均值、众数填充

3、变量统计描述

数值型变量统计描述

full.describe()

年龄在[65,80]的乘客占比1%,full['Age'].describe(percentiles=[0.98,0.99])

票价大于500的乘客占比小于1%,full['Fare'].describe(percentiles=[0.98,0.99])

没有携带父母和孩子的乘客占比75%

在三等舱的乘客占比大约50%

携带配偶的乘客占比大约30%

 

类别变量统计描述

full.describe(include=['O'])

乘客登船地点有三个,主要集中在S站

男性乘客占比64.4%

4、特征变量与目标变量的相关性

类别变量与目标变量的相关性

data_train[
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值