一、背景介绍
Jack and Rose唯美的爱情故事很壮观却很悲凉~
大船船体进水后,是否获救的乘客是随机的还是具有某些规律的呢?
是否可以根据乘客的基本信息和存活信息来预测其他人的存活信息呢?
So,这是一个二分类问题。常见的二分类算法有:线性/逻辑回归、SVM、决策树、随机森林、boost算法等。
二、数据预处理
数据下载地址如下:
https://www.kaggle.com/c/titanic/data
其中train.csv用来训练模型,text.csv经过模型提交结果。先用Excel打开看一下基本特征:
我们可以看到:
·PassengerId 乘客ID
·Pclass 乘客等级(1/2/3等舱位)
·Name 乘客姓名
·Sex 乘客性别
·Age 乘客年龄
·SibSp 堂兄弟/妹个数
·Parch 父母与小孩个数
·Ticket 船票信息
·Fare 票价
·Cabin 客舱
·Embarked 登船港口
利用Pandas导入CSV,代码如下:
import pandas as pd
titanic=pd.read_csv("D://titanic/train.csv")
导入数据后,我们先看一下数据整体情况:
print (titanic.describe())
得到:
我们可以看到:
1、整个数据有891条,其中Age缺失比较严重,考虑到Age可能是一个很重要的特征(“老人和小孩先走!”),而算法输

最低0.47元/天 解锁文章
2497

被折叠的 条评论
为什么被折叠?



