Kaggle学习之Machine Learning from Disaster(1)

一、背景介绍

Jack and Rose唯美的爱情故事很壮观却很悲凉~

大船船体进水后,是否获救的乘客是随机的还是具有某些规律的呢?
是否可以根据乘客的基本信息和存活信息来预测其他人的存活信息呢?

So,这是一个二分类问题。常见的二分类算法有:线性/逻辑回归、SVM、决策树、随机森林、boost算法等。

二、数据预处理

数据下载地址如下:
https://www.kaggle.com/c/titanic/data
这里写图片描述

其中train.csv用来训练模型,text.csv经过模型提交结果。先用Excel打开看一下基本特征:

这里写图片描述

我们可以看到:

·PassengerId  乘客ID
·Pclass  乘客等级(1/2/3等舱位)
·Name  乘客姓名
·Sex  乘客性别
·Age  乘客年龄
·SibSp  堂兄弟/妹个数
·Parch  父母与小孩个数
·Ticket  船票信息
·Fare  票价
·Cabin  客舱
·Embarked  登船港口

利用Pandas导入CSV,代码如下:

import pandas as pd    
titanic=pd.read_csv("D://titanic/train.csv")

导入数据后,我们先看一下数据整体情况:

print (titanic.describe())

得到:
这里写图片描述

我们可以看到:

1、整个数据有891条,其中Age缺失比较严重,考虑到Age可能是一个很重要的特征(“老人和小孩先走!”),而算法输

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值