Kaggle学习之Machine Learning from Disaster（1）

最新推荐文章于 2025-05-21 21:53:04 发布

原创

最新推荐文章于 2025-05-21 21:53:04 发布 · 484 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #预测 #算法

一、背景介绍

Jack and Rose唯美的爱情故事很壮观却很悲凉~

大船船体进水后，是否获救的乘客是随机的还是具有某些规律的呢？
是否可以根据乘客的基本信息和存活信息来预测其他人的存活信息呢？

So，这是一个二分类问题。常见的二分类算法有：线性/逻辑回归、SVM、决策树、随机森林、boost算法等。

二、数据预处理

数据下载地址如下：
https://www.kaggle.com/c/titanic/data
这里写图片描述

其中train.csv用来训练模型，text.csv经过模型提交结果。先用Excel打开看一下基本特征：

这里写图片描述

我们可以看到：

·PassengerId  乘客ID
·Pclass  乘客等级（1/2/3等舱位）
·Name  乘客姓名
·Sex  乘客性别
·Age  乘客年龄
·SibSp  堂兄弟/妹个数
·Parch  父母与小孩个数
·Ticket  船票信息
·Fare  票价
·Cabin  客舱
·Embarked  登船港口

利用Pandas导入CSV，代码如下：

import pandas as pd    
titanic=pd.read_csv("D://titanic/train.csv")

导入数据后，我们先看一下数据整体情况：

print (titanic.describe())

得到：
这里写图片描述

我们可以看到：

1、整个数据有891条，其中Age缺失比较严重，考虑到Age可能是一个很重要的特征（“老人和小孩先走！”），而算法输

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

祝小蹊

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Kaggle之Titanic: Machine Learning from Disaster

爱妍妍的博客

03-12

2499

一般的工作流程问题的定义数据假设工作目标分析数据查看数据分布通过图表分析数据数据分析结论特征处理 Correcting by dropping features Creating new feature extracting from existing Converting a categorical feature Create new feature combining exis

Kaggle比赛——Titanic: Machine Learning from Disaster

笨鸟先飞的博客

07-15

882

文章目录0 整体流程1 问题定义 & 训练集和测试集2 整理、准备、清洗数据（特征分析）2.1 导入数据2.2 特征分析2.3 基于特征分析的假设2.4 表格分析特征3 可视化数据3.1 特征相关性3.2 关联数字和序数特征3.3 关联分类特征3.4 关联分类和数字特征4 数据整理4.1 补全特征值4.1.1 补全Age特征 & 分组4.1.2 补全Embarked特征4.1.3 ...

参与评论您还未登录，请先登录后发表或查看评论

Titanic: Machine Learning from Disaster（Kaggle 数据挖掘竞赛）

勿忘初衷

01-15

6707

Predict survival on the Titanic (with tutorials in Excel, Python, R, and an introduction to Random Forests) The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On Apr

Titanic: Machine Learning from Disaster

zzq123686的专栏

01-12

324

#coding:utf-8 import pandas as pd #读取训练和测试数据 train=pd.read_csv('./train.csv') test=pd.read_csv('./test.csv') #输出训练和测试数据的基本信息 print train.info() print test.info() #选择指定的列 selected_features=['Pclass'...

机器学习-Titanic – Machine Learning from Disaster

qq3342560494的博客

05-21

858

机器学习-Titanic – Machine Learning from Disaster

Kaggle -- Titanic - Machine Learning from Disaster

a1783760364的博客

06-10

479

使用一个简单的决策树进行模型构建，达到75.8%的准确率（有点低，但是刚开始）新手kaggle之旅：1 . 泰坦尼克号。

Kaggle入门实战：Titanic - Machine Learning from Disaster

cici9811的博客

12-20

1335

Kaggle入门实战：Titanic - Machine Learning from Disaster项目简介关于数据数据概括数据字段描述数据分析总体思路初步分析项目简介 Use machine learning to create a model that predicts which passengers survived the Titanic shipwreck. 基于机器学习建立模型预测泰坦尼克号灾难中哪些乘客得以生存。 Kaggle入门项目：Titanic overview 参考分析视频：B

来源于Kaggle竞赛Titanic - Machine Learning from Disaster.zip

09-11

1、资源项目源码均已通过严格测试验证，保证能够正常运行； 2、项目问题、技术讨论，可以给博主私信或留言，博主看到后会第一时间与您进行沟通； 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用，...

Titanic: Machine Learning from Disaster-数据集

03-29

Start here! Predict survival on the Titanic and get familiar with ML basics

Kaggle入门-泰坦尼克号之灾（数据集+代码+结果）.zip

02-06

Kaggle入门-泰坦尼克号之灾可以参考：https://jnsimba.blog.youkuaiyun.com/article/details/104245964

dataset泰坦尼克号数据集

12-14

泰坦尼克号数据集，包含train和test数据集以及gender标签，泰坦尼克号数据集，包含train和test数据集以及gender标签，泰坦尼克号数据集，包含train和test数据集以及gender标签

kaggle实战之Titanic - Machine Learning from Disaster

gswsssw的博客

05-05

1298

很多小伙伴在学习完数据分析和机器学习之后都想找一些项目进行实战训练，不仅可以巩固自己的知识，还可以学习到新的技能来扩展自己的技能树。kaggle、天池、DF、DC等等都是一些很不错的竞赛学习网站，特别是kaggle和天池含金量很高，如果你能够在这两个竞赛中取得一个不错的成绩那么在面试中是一个很大的加分项。在第一次对数据分析时，很多人面对这些数据都会无从下手，不知道问题的切入点在哪里。我们就从kaggle上经典的Titanic项目来进行一个简单的分析。这个项目的是需要我们通过他给的数据集来预测哪种

Kaggle入门——Titanic: Machine Learning from Disaster

开着奔驰种地的博客

02-02

772

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

Titanic - Machine Learning from Disaster————泰坦尼克号幸存者预测————逻辑回归、随机森林和梯度提升树（XGBoost、LightGBM）

u010385749的博客

09-06

5291

在本篇博客中，我们详细介绍了从数据预处理到模型训练与优化的整个流程。我们使用了多种机器学习模型（逻辑回归、随机森林、XGBoost 和 LightGBM），并对这些模型进行了评估。通过对超参数的调优和特征选择，我们进一步提升了模型的性能。

Titanic: Machine Learning from Disaster初练习详解

Gunther的博客

11-18

879

一、预览数据 #-*-coding=utf-8-*- import pandas as pd import numpy as np from pandas import DataFrame import matplotlib.pyplot as plt import seaborn as sns #sns.set_style('whitegrid') from sklearn.line...

好好学习，天天向上

02-24

529

1.题目链接 Titanic: Machine Learning from Disaster 2.参考资料 1.Titanic [0.82] - [0.83] 3.线上成绩截至2019年2月24日排名:413/9909 前4% 线上成绩:0.82296 4.流程及代码 4.1 载入数据 import pandas as pd import numpy as np im...

Kaggle上的“Titanic: Machine Learning from Disaster”数据集

最新发布

05-31

### Kaggle Titanic 数据集分析与教程 Kaggle 上的 Titanic: Machine Learning from Disaster 是一个经典的入门级机器学习竞赛，旨在预测泰坦尼克号上的乘客是否能够幸存。该数据集包含多个特征，如乘客的年龄、性别、船票价格等，参赛者需要使用这些特征构建模型来预测生存状态。在处理 Titanic 数据集时，通常会经历以下流程：数据清洗、特征工程、模型选择与训练以及结果评估。例如，在一次任务中，用户完成了对 Titanic 数据集的首次提交，并进行了初步的数据可视化和缺失值填充[^2]。此外，还有更详细的案例学习，其中涉及随机森林（Random Forest）算法的应用[^1]。对于特征工程部分，可以通过提取姓名中的称谓（如 Mr., Mrs. 等）、家庭规模（SibSp 和 Parch 的总和加 1）等信息来增强模型的表现力。同时，还可以通过分箱（Binning）技术对连续型变量（如 Age 和 Fare）进行离散化处理以获得更好的预测效果[^4]。以下是基于 Titanic 数据集的一个简单随机森林实现示例： ```python import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 加载数据 train_data = pd.read_csv('train.csv') test_data = pd.read_csv('test.csv') # 数据预处理 def preprocess(data): data['Age'].fillna(data['Age'].median(), inplace=True) data['Fare'].fillna(data['Fare'].median(), inplace=True) data['Embarked'].fillna('S', inplace=True) data = pd.get_dummies(data, columns=['Sex', 'Embarked'], drop_first=True) return data[['Age', 'Fare', 'Sex_male', 'Embarked_Q', 'Embarked_S']] X = preprocess(train_data) y = train_data['Survived'] X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42) # 模型训练 model = RandomForestClassifier(n_estimators=100, random_state=42) model.fit(X_train, y_train) # 模型评估 predictions = model.predict(X_val) print(f'Accuracy: {accuracy_score(y_val, predictions):.2f}') ``` 上述代码展示了如何加载数据、进行基本的预处理操作以及使用随机森林分类器进行训练和评估。此代码仅为示例，实际应用中可能需要更多的数据清理和特征工程步骤。 ####