按照我上一篇博客中所描述的思路,我们仅用artist_id和艺人当天的播放量Plays,以及日期Ds三个维度的数据作为训练集合,对每个艺人分别使用时间序列算法进行预测,提交了成绩。本来没报多大希望,只是希望能在排行榜里露个脸,结果竟然进了首页!惊讶之余还是非常开心的。虽然不能说明该方法有多好,至少可以认为是有效的。
简单总结
由于我们仅仅使用了和 选手提交结果表(mars_tianchi_artist_plays_predict)中相同维度的数据进行了预测,所以利用的信息还是非常少的,也从侧面说明baseline的得分很可能就在6400+左右。
友情提醒
1、在数据处理的过程中发现是存在缺失数据的,也就是说部分艺人在训练集合时间(20150301-20150830)内会缺失某天的数据,大家要擦亮眼。本人已经趟过雷。
2、给出的是6个月内(20150301-20150830)的历史数据,要预测的是60天(20150901-20151030)的播放数据。还记得么?一三五七八十腊,三十一天永不差,8月份是31天呐!20150831去哪里啦?说明8月31日是要预测的,但是不会出现在提交表格里。也就是说总共要预测61天的数据,只不过提交的时候剃掉20150831的预测结果,只保留后面60天进行提交即可。
特征工程
下一步的任务就是在此基础上考虑如何加入其它维度的特征,比如publish_time,gender