一点废话
就在一个天气晴朗的日子,我终于学完了达叔的深度学习课程,你们懂得,这时候都是贼认不清自己,认为可以上天了!!膨胀无比。啊哈哈 然后就在网上找一些下一步干什么的建议。大多数都是说可以去Kaggle做一点竞赛,所以我就翻了墙去搞一次试试,然后就发生了惊天惨案!!!!我谨把自己的想法,经历过的问题,以及解决方法写出来,比较基础。大神们请轻喷。这是上篇,只到第一次提交预测,后面的改进模型,特征的改进,都在下篇。
点击这里:机器(深度学习)新手第一次在Kaggle上被虐的经历(经验)——泰坦尼克号生存预测:Titanic: Machine Learning from Disaster——(下)
一.关于Kaggle的一些问题
1.kaggle网页不用翻墙,但是在注册的时候,会有确定邮箱环节,这时候必须要翻墙,因为其中的确认码会被墙,而这个确认码你是看不到的,也就是你没办法完成注册,所以你可以尝试翻墙或看这里:
解决kaggle邮箱验证不能confirm的问题
不过以后你去提交你的预测文档的时候你还是需要翻墙-,- 所以你懂的。
早翻墙 早享受 嘿嘿嘿
2.然后你需要有一个好的心态(反正我后来还是爆炸了)和好的指南。
心态:七大诀窍助你享受Kaggle竞赛
指南:你还想要啥指南,我这篇就是指南,给我继续读!!!
二.Titanic 下载数据集
所以你注册成功后 进到泰坦尼克号这个竞赛中
Titanic: Machine Learning from Disaster
你应该看到这个页面你可以先看看相关的描述什么的,知道你在将要预测什么,和故事的背景:杰克和肉丝那个爱情故事,泰坦尼克号在自己的处女航里装冰山沉没,船上的救生艇根本不够,所以副船长发话:lady and kid first!
我们要做的就是根据一些乘客的个人信息以及存活状况,要尝试根据它生成合适的模型并预测其他人的存活状况。
bingo!二分类问题,目标解决了。
然后点进Data然后你也可以看看数据集的描述什么的,看看每一个数据特征的意思。往下翻之后有一个下载数据的地方右上角是可以下载他们的工具,然后在Anaconda prompt里用pip进行下载,不过我弄半天不知道是咋弄的挺麻烦,后来我无意发现他喵的左边可以直接在浏览器里下载,MMP。要鼠标放上去才会显示,我们最爱的下载符号,啊哈哈!
点了之后就可以下载了,第一个gender_submission.csv是提交的示例,告诉你提交的格式,test.csv是测试集,让你用模型预测了之后提交你的存活数据,train.csv是训练集,用来训练你的模型-。-
三.观察数据集以及特征工程
上来就想搭建模型?嘿嘿 我当时也是那么狂躁,但是发现确实不知道咋弄,一头雾水,所以还是先来看看数据集吧。
图是@快乐的佩奇 的,表示感谢 嘿嘿
看到这些还有实际数据肯定有点想法啊,客人等级,性别,年龄,还有船上亲人的数量,这几个肯定是和存活率有关的啊,还有姓名,编号,其他的什么暂时还不知道有没有关系,先放一下,重要的一个问题:年龄和客舱号都是缺失的,客舱号还不确定和存活有没有关系,但是年龄肯定有的,毕竟当时船长都说让女人和孩子先上救生船,所以填充年龄肯定是必须的。
不过不着急,反正用的python,画图那么简单,不画白不画图,一方面可以印证自己的猜测,一方面没准发现更深的联系!
导入一些库:
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
读入文件:
data_