- 本文是京东JData算法大赛-高潜用户购买意向预测和腾讯社交广告高校算法大赛的经历和总结
JDATA
- 任务:通过数据挖掘的技术和机器学习的算法,构建用户购买商品的预测模型,输出高潜用户和目标商品的匹配结果,为精准营销提供高质量的目标群体
- 参赛队伍4240 我的排名342
JDATA算是我第一次参加的大型带奖金比赛 =#= 大约是2017.4月我被我的好友机器变得更残忍拉入机器学习的坑。然后推荐我去kaggle打入门的house prices和digit recognizer。这时候JDATA已经开赛了,但萌新入门,完全不会。
还是先看kaggle上的kernels做入门题吧。4.16把houseprice做到1100名。在做house price时还不会处理非数值型数据,就简单把数值型的筛出来,然后用SVM跑了下。pandas也基本不会用(当时只是会python基础语法)。代码仅仅50行吧。
好歹有了点成绩,虽然很烂,但也可以稍稍激励下自己嘛。digit recognizer 到没有做出来,debug也不成功,放弃了。
这时候,JDATA也开了3星期左右了。 想着混混感受下氛围的原则,下载数据,准备开搞。在群里潜水了一段时间,发现有规则和模型2条路。模型,暂时不会用,先试试规则吧。比如前几周加到购物车但没有购买的,作为目标用户的购买意向物品。试了几个,发现效果还可以,最好的提交排名达到了600名。怎么办,语法有瓶颈而且规则确实不熟悉,不知道该怎么提分了。还是看看模型吧。
数据放在几个表里,怎么才能提到一起呢,merge一下。非数值型的如月份怎么办,先不管,凉拌,把数值型的弄到一起,用svm和linear regression跑了下 == 不出所料,很烂。这时候知识不够了,上网看看有人介绍思路