Display Advertising Challenge
---------2015/1/12
一:背景
CriteoLabs 2014年7月份在kaggle上发起了一次关于展示广告点击率的预估比赛。CriteoLabs是第三方展示广告的佼佼者,所以这次比赛吸引了很多团队来参赛和体验数据。
二:评估指标
比赛采用的评价指标是LoglLoss:
至于离线评估为何更倾向采用logloss,而不是采用AUC值。Facebook在他们发布的论文【1】中提到现实环境中更加关注预测的准确性,而不是相对的排序。而AUC值更侧重相对排序,比如把整体的预测概率提升1倍,AUC值保持不变,但是logloss是有变化的。
三:训练集和测试集数据分布
训练集: 4000w+, 测试集:600w+。
训练集是连续7天的Criteo广告展示数据,里面包含点击和非点击数据。里面对每天的负样本进行了不同采样率的采样,使得整体的正负样本比率不至于悬殊。
测试集是接着训练集后的一天广告展示数据,测试集的采样方式和训练集一致。
下面是kaggle上一位参赛者给出的训练集点击率分布:
从上面很清楚的能看到7天周期性变化的数据,每天的点击率变化,有衰减的趋势,点击率平均值大约处在0.25左右。
其中数据特征介绍如下:
13个连续特征,26个类目特征。最终的效果提升更多体现在26个类目特征的处理和变换上面。其中类目特征要说明的是,有的类目特征的属性上万,有的属性展示和点击都少。
四:模型
ctr预估在工业界是个相对成熟的话题,在计算广告领域尤为重要,很多成熟的解决方案。我知道很多团队目前logistic regression + L1正则是主流,大多数工程师干的活就是挖特征。
这块百度的技术实力很强,据说网盟已经用了特征自动化选取的方法,凤巢lr, gbdt , DNN都有在应用。阿里的据说现在MLR(mixed logistic regression)是主流(备注下: 看过作者公布的ppt,感觉和先聚类再在每个类别里面做lr训练,预测时候最后根据归属各个类别概率加权平均lr的预测概率的思想有点相似)。
本次比赛,我前期采用了vowpal-wabbit logistic regression online learning的方法来搞,其中包含了大量的特征处理,构造新特征, 人工做cross-feature