题外话:想着更早的接触到数据竞赛,就可以更早的学到理论,练到技术,拿到名次,赚得奖金~功利心太重了,屡屡开始入门比赛,屡屡不了了之。加入俱乐部,发现大家本科就知道这些,已经参加了各种数据科学竞赛,并且有了不小的学习成就和心得体会,当然还有白花花的银子,然而,我没有在第一时间找到小白同学共同学习,没有抱紧大佬大腿努力学习,而是打算自己慢慢摸爬滚打入门,再找大家交流。结果自己没有摸出门道,提前放弃,一起的小伙伴也在通往大佬的路上越走越远,我还停在原地。再后来,了解到DataWhale这个神奇的开源组织,从街景字符识别开始,研究水哥、鱼佬给出的baseline,还是我不够努力,对于我而言,能弄懂baseline就挺费劲的了,在这个基础上,增加特征,我无从下手,也没有请教别人。归根结底,都是我懒惰,加急功近利的性子导致的,太害怕失败,害怕困难,而选择就此止步,可我又不甘如此,经常做着自我斗争。年轻人终归是要奋斗的,要拿出年轻人的朝气,在此替过去的自己对现在的自己说声抱歉。
在有了一定基础之后,再次看泰坦尼克号这个题目,觉得好简单。然而,还是有很多工作需要做,从数据分析,到如何建立一个有效的模型,再到调参分析等,都是新手需要钻研的。以下是处理数据分析比赛的一个基本思路:
1 分析赛题
直译:泰坦尼克号的沉没是历史上最臭名昭著的沉船事件之一。1912年4月15日,被广泛认为是永不沉没的皇家邮轮泰坦尼克号在处女航中与冰山相撞后沉没。不幸的是,船上没有足够的救生艇运载所有乘客,导致2224名乘客和船员中有1502人死亡。虽然生存有一些运气的因素,但似乎某些群体的人比其他人更有可能存活下来。在这次挑战中,我们要求你建立一个预测模型来回答以下问题:什么样的人更有可能存活?使用乘客资料(如姓名、年龄、性别、社会经济等级等)。
首先分析一下赛题,赛题定位是一个二分类问题,任务是通过train.csv
(已经标注label的乘客信息)来预测test.csv
(未标注label的乘客信息)中的label,其中label就是乘客是否存活,存活标记为1,未存活标记为0。然后我们需要将预测出来的结果存入submit.csv
中,包括乘客id
和label
即可。
Goal
It is your job to predict if a passenger survived the sinking of the Titanic or not.
For each in the test set, you must predict a 0 or 1 value for the variable.
Metric
Your score is the percentage of passengers you correctly predict. This is known as accuracy.
A c c u r a c y = ( T P + T N ) / ( T P + T N + F P + F N ) w h e r e : T P = T r u e p o s i t i v e ; F P = F a l s e p o s i t i v e ; T N = T r u e n e g a t i v e ; F N = F a l s e n e g a t i v e Accuracy = (TP + TN)/(TP + TN + FP + FN)\\ where: TP = True positive; FP = False positive; TN = True negative; FN = False negative Accuracy=(TP+TN)/(TP+TN+FP+FN)where:TP=Truepositive;FP=Falsepositive;TN=Truenegative;FN=Falsenegative
Submission File Format
You should submit a csv
file with exactly 418 entries plus a header row. Your submission will show an error if you have extra columns (beyondPassengerId
and Survived
) or rows.
The file should have exactly 2 columns:
PassengerId
(sorted in any order)- Survived (contains your binary predictions: 1 for survived, 0 for deceased)
2 分析数据:
这一部分需要做的有以下几点:
- 读取数