[Kaggle] Titanic: Machine Learning from Disaster入门版练习笔记

Titanic: Machine Learning from Disaster入门版练习笔记

该练习笔记记录了一个python入门者开始打kaggle的历程,包括以下几个方面:

  • 读取数据
  • 处理数据
  • 分析数据间相关性
  • 使用不同算法进行预测
  • 结果分析

一、分析命题

——也就是所谓的读题。

Titanic航行期间,撞上一座冰山后沉没,船上乘客和机组人员共2224名,其中1502人遇难。由于船上救生艇数量有限,大部分乘客在沉船之后没能获救,不幸丧生。幸存下来的人,可能是因为运气,当然也可能有其他因素,比如性别、阶层等等。这个挑战中,我们的目标就是预测什么样的人更有可能生存下来。

在Data中有三个csv文件:

  • train.csv:训练数据,由目标函数已知的记录组成,用来训练算法的数据集
  • test.csv:检验数据,由目标函数未知的记录组成,用来验证算法准确性的数据集
  • gender_submission.csv

二、处理数据

1、用pandas.read_csv()读取csv文件

import pandas as pd

TrainData = pd.read_csv("~/train.csv")
TestData = pd.read_csv("~/test.csv")

2、观察训练数据的类型

(1)取csv文件中每列数据的表头,了解每列数据代表什么:

print(TrainData.columns.values)

[‘PassengerId’ ‘Survived’ ‘Pclass’ ‘Name’ ‘Sex’ ‘Age’ ‘SibSp’ ‘Parch’
‘Ticket’ ‘Fare’ ‘Cabin’ ‘Embarked’]

(2)预览部分的训练数据,了解数据基本特征:

print(TrainData.head())
#print(TrainData.tail())

训练数据的前五行

训练数据一共有11列,其中Survived是需要预测的一列,称为目标函数。其余10列为属性集,描述了每条数据10个维度的特征。

  • 目标函数:Survived,0/1(二分类)
  • 属性集:

    • 标称属性(例如,ID号、邮政编码、颜色、性别),虽然是数字,但是不具有数的性质,该类属只能用来区分对象。数据集中有以下几个标称属性: PassengerId、Name、Sex、Embark

    • 序数属性(例如,矿石硬度、成绩、街道号),该类属性可以给对象排序。数据集中有以下几个序数属性:
      Pclass、Ticket(猜测Ticket号可能会和票价、乘客级别等挂勾,Ticket号有可能会对目标函数预测作出贡献)

    • 比率属性(例如,绝对温度、货币量、年龄、长度),该类属性的差和比率都是有意义的。数据集中有以下几个比率属性:
      Age、SibSp、Parch、Fare

    • 区间属性(例如,日历日期、摄氏温度),该类属性的差是有意义的,即存在测量单位。数据集中没有区间属性。

(3)分析训练数据中的缺失项:

TrainData.info()

训练数据的描述性信息

从上面我们可以看出,Age、Cabin、Embarked、Fare几个特征存在缺失值。
后续对缺失值的特性进行分析,根据其对目标函数的贡献度来决定对缺失值的处理方式。如果缺失值对目标函数基本没有影响,则可以直接用平均值、无意义的数值等填充,甚至直接舍弃;如果缺失值对目标函数有一定的影响,则需要首先预测缺失值的可能数值,进行有意义的填充。

(4)逐个分析:

【1】P16

——未完待续——

快捷键

  • 加粗 Ctrl + B
  • 斜体 Ctrl + I
  • 引用 Ctrl + Q
  • 插入链接 Ctrl + L
  • 插入代码 Ctrl + K
  • 插入图片 Ctrl + G
  • 提升标题 Ctrl + H
  • 有序列表 Ctrl + O
  • 无序列表 Ctrl + U
  • 横线 Ctrl + R
  • 撤销 Ctrl + Z
  • 重做 Ctrl + Y

Markdown及扩展

Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成格式丰富的HTML页面。 —— [ 维基百科 ]

使用简单的符号标识不同的标题,将某些文字标记为粗体或者斜体,创建一个链接等,详细语法参考帮助?。

本编辑器支持 Markdown Extra ,  扩展了很多好用的功能。具体请参考Github.

表格

Markdown Extra 表格语法:

项目 价格
Computer $1600
Phone $12
Pipe $1

可以使用冒号来定义对齐方式:

项目 价格 数量
Computer 1600 元 5
Phone 12 元 12
Pipe 1 元 234

定义列表

Markdown Extra 定义列表语法: 项目1 项目2
定义 A
定义 B
项目3
定义 C

定义 D

定义D内容

代码块

代码块语法遵循标准markdown代码,例如:

@requires_authorization
def somefunc(param1='', param2=0):
    '''A docstring'''
    if param1 > param2: # interesting
        print 'Greater'
    return (param2 - param1 + 1) or None
class SomeClass:
    pass
>>> message = '''interpreter
... prompt'''

脚注

生成一个脚注

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值