#腾讯社交广告高校算法大赛——总结
Another url: https://bulihanjie.github.io/2017/07/08/腾讯社交广告高校算法大赛总结/
题目描述
http://algo.tpai.qq.com/home/home/index.html
成绩
决赛第7名
赛题分析
比赛中,我们比较关心的一个问题在于:数据线上线下分布不一致:1、某些app和用户的记录比较少;2、数据的时效性要求较高。这对于特征工程会是一个比较大的要求,在比赛中有许多的特征会使得线上的成绩下降,比如各种差分的特征。
特征工程
特征的提取主要有以下几个方面:
- 基础特征:计数特征、转化率、比例特征等各种基本的特征;
- 线上的特征:基于当天数据统计的用户行为、app行为的特征;
- 用户行为挖掘特征:word2vec计算用户行为与历史行为的关联;
特征提取方式有以下几个方面考虑:
- 基于cv统计、贝叶斯平滑等方法,能够很好的修正线上线下的特征分布不一致的问题;
- 特征提取主要有基于全局的数据统计以及滑窗的历史统计。
- 基于全集的数据统计生成的特征:是决赛中主要的特征提取方式,效果比较平稳,而且信息量比较多,但容易会有信息泄露的问题需要通过cv统计来避免,而且难以反映时间变化的信息。
- 基于滑窗的生成特征:能反映时序上的信息,不会有信息泄露的问题。但是生成的特征数量多,线上线下的分布差异比较大,特征工程方面的工作量比较大。
因此,比赛中我选择了两种生成特征的方式来产生不同的模型进行融合。
特征选择
- 在初赛阶段,主要有以下三种方式来筛选特征:1、删除线上线下均值差异30%以上的特征;2、通过xgboost计算的特征重要性,删除重要性较低的特征;3、通过wrapper的方