腾讯社交广告高校算法大赛——总结

本文是关于腾讯社交广告高校算法大赛的总结,作者分享了他们在比赛中遇到的问题,如数据分布不一致,以及解决策略。重点讨论了特征工程,包括基础特征、线上特征和用户行为挖掘特征的提取,以及如何处理线上线下特征分布差异。在模型方法中,采用了stacking策略,结合xgboost和lightgbm,通过多模块训练和融合提高模型精度。最终,模型通过线上成绩反馈不断优化,实现了较好的比赛成绩。

#腾讯社交广告高校算法大赛——总结

Another url: https://bulihanjie.github.io/2017/07/08/腾讯社交广告高校算法大赛总结/


题目描述

http://algo.tpai.qq.com/home/home/index.html


成绩

决赛第7名


赛题分析

比赛中,我们比较关心的一个问题在于:数据线上线下分布不一致:1、某些app和用户的记录比较少;2、数据的时效性要求较高。这对于特征工程会是一个比较大的要求,在比赛中有许多的特征会使得线上的成绩下降,比如各种差分的特征。


特征工程

特征的提取主要有以下几个方面:

  1. 基础特征:计数特征、转化率、比例特征等各种基本的特征;
  2. 线上的特征:基于当天数据统计的用户行为、app行为的特征;
  3. 用户行为挖掘特征:word2vec计算用户行为与历史行为的关联;

特征提取方式有以下几个方面考虑:

  1. 基于cv统计、贝叶斯平滑等方法,能够很好的修正线上线下的特征分布不一致的问题;
  2. 特征提取主要有基于全局的数据统计以及滑窗的历史统计。
  • 基于全集的数据统计生成的特征:是决赛中主要的特征提取方式,效果比较平稳,而且信息量比较多,但容易会有信息泄露的问题需要通过cv统计来避免,而且难以反映时间变化的信息。
  • 基于滑窗的生成特征:能反映时序上的信息,不会有信息泄露的问题。但是生成的特征数量多,线上线下的分布差异比较大,特征工程方面的工作量比较大。

因此,比赛中我选择了两种生成特征的方式来产生不同的模型进行融合。


特征选择

  • 在初赛阶段,主要有以下三种方式来筛选特征:1、删除线上线下均值差异30%以上的特征;2、通过xgboost计算的特征重要性,删除重要性较低的特征;3、通过wrapper的方
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值