Kaggle 泰坦尼克号挑战赛

本文讲述了使用随机森林模型对泰坦尼克号乘客数据进行生存预测,通过分析性别、船票等级等因素,实现初步预测并计算了97.13%的预测准确率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目标

使用泰坦尼克号乘客数据(名字,年龄,票价等)预测谁将存活或者死去。

数据

在数据中有三份文件:(1) train.csv, (2) test.csv, and (3) gender_submission.csv.

(1) train.csv

train.csv 包含机上乘客子集的详细信息(确切地说是891名乘客——每个乘客在表中都有不同的一行。

第二列中的值( “幸存” )可用于确定每个乘客是否幸存:

  • 如果是“1”,乘客就活了下来。
  • 如果是“0”,则乘客死亡。

例如,train.csv 中列出的第一位乘客是 Owen Harris Braund 先生。他在泰坦尼克号上去世时22岁。

(2) test.csv

使用您在 train.csv 中训练的模型,预测船上其他418名乘客(在 test.csv 中)是否幸存。

(3) gender_submission.csv

提供了gender_submition.csv文件作为示例,该文件显示了您应该如何构建预测。据预测,所有女性乘客幸存,所有男性乘客死亡。你关于生存的假设可能会有所不同,这将导致不同的提交文件。但是,就像这个文件一样,您提交的文件应该有:

  • PassengerId"; 列,其中包含test.csv中每个乘客的ID。
  • 幸存的"; 列(您将创建!),其中“1”表示您认为乘客幸存的行,“0”表示您预测乘客死亡的行。

过程

代码

  • 导入所需要的库和训练集:
import pandas as pd
train_data = pd.read_csv('data/titanic/train.csv')
train_data.head()

输出:

PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked
0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S
1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85 C
2 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 7.9250 NaN S
3 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 0 113803 53.1000 C123 S
4 5 0 3 Allen, Mr. William Henry male 35.0 0 0 373450 8.0500 NaN S
  • 导入测试集:
train_data = pd.read_csv('data/titanic/train.csv')
train_data.head()

输出:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值