kaggle竞赛入门Titanic生存预测

本文介绍了参与Kaggle Titanic生存预测竞赛的初步步骤,包括数据清洗如处理缺失值(删除记录、插补)、数据可视化(乘客属性与获救情况关联)以及特征工程的初步操作。通过数据探索,展示了各乘客等级、性别和Cabin有无对获救情况的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Titanic是kaggle上的一道入门题目,很适合新手去练市数据分析。

这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存。这是个二元分类的机器学习问题。数据链接:https://www.kaggle.com/c/titanic/data

 

1.    数据清洗(Data Cleaning)

2.    探索性可视化(Exploratory Visualization)

3.    特征工程(Feature Engineering)

4.    基本建模&评估(Basic Modeling& Evaluation)


一 。数据清洗

import pandas as pd
import numpy as np

train=pd.read_csv('F:\\kaggleData\\titanic\\train.csv')
train.head()
train.info()

train.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

标签解释:

  • PassengerId => 乘客ID
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值