按照我上一篇博客中所描述的思路,我们仅用artist_id和艺人当天的播放量Plays,以及日期Ds三个维度的数据作为训练集合,对每个艺人分别使用时间序列算法进行预测,提交了成绩。本来没报多大希望,只是希望能在排行榜里露个脸,结果竟然进了首页!惊讶之余还是非常开心的。虽然不能说明该方法有多好,至少可以认为是有效的。
简单总结
由于我们仅仅使用了和 选手提交结果表(mars_tianchi_artist_plays_predict)中相同维度的数据进行了预测,所以利用的信息还是非常少的,也从侧面说明baseline的得分很可能就在6400+左右。
友情提醒
1、在数据处理的过程中发现是存在缺失数据的,也就是说部分艺人在训练集合时间(20150301-20150830)内会缺失某天的数据,大家要擦亮眼。本人已经趟过雷。
2、给出的是6个月内(20150301-20150830)的历史数据,要预测的是60天(20150901-20151030)的播放数据。还记得么?一三五七八十腊,三十一天永不差,8月份是31天呐!20150831去哪里啦?说明8月31日是要预测的,但是不会出现在提交表格里。也就是说总共要预测61天的数据,只不过提交的时候剃掉20150831的预测结果,只保留后面60天进行提交即可。
特征工程
下一步的任务就是在此基础上考虑如何加入其它维度的特征,比如publish_time,gender,language等,就是特征选择范畴了。特征选择在数据挖掘的整个任务中要占掉大部分的时间和精力,需要丰富的经验,通常要结合业务的理解来做,挑战还是很大的。
提交成绩为0情况-解决办法
看到很多同学在官方旺旺群里和论坛中反应自己提交结果一直为0,我觉得可以从以下几个方面查找问题:
1、文件名称是否对?正确的是csv格式,如下:mars_tianchi_artist_pla