这是本人写的第一篇博客,小白一枚,如有错误的地方,欢迎大佬们批评指教。
首先这次的竞赛让人受益匪浅,那庞大的数据量,让人感叹这是一场有钱人的游戏。感谢学校的服务器,几乎没休止的转了一个多月,哈哈哈。
虽然最后成绩不咋地,但是这次成长还是很大的,特此总结以下经验。
问题描述
这次比赛的任务是寻找相似人群,其实就可以看成是CTR问题。
关注官方竞赛群
一般只要是比较正式的比赛都会有官方的交流群,大家在这里交流,同时这里也是你成长的关键地方,如果比赛的等级够高的话,会有一堆大佬,在群里给小白指点,但是同时也要擦亮眼睛,因为有个别的人,会给小白错误的指导,所以最好找那种比较知名的大佬,有些大佬很热情,但是有的就比较冷淡了。而且不要问一些很low的问题。。。最重要的是每年都会有baseline代码,你如果错过了,你在起跑线上就已经输了。。。
充分利用github
像这样每年都会举办的比赛,每年github都上会出现一堆源码,也许每年给的数据特征以及数据量都不一样,但是有些强特是公用的。而且对于一些典型的问题,比如CTR预估,已经有一些典型的模型,和其他人写好的源码,你不用就浪费了。
数据处理与特征工程
首先这种类型的竞赛,数据就是根本,应该充分了解你的数据,才能无往不利。如何了解你的数据呢?plot,plot,plot,重要的事说3遍。对于ctr的数据,都有