一文梳理2019年腾讯广告算法大赛冠军方案

2019腾讯广告算法大赛冠军方案解析：从数据清洗到模型融合

最新推荐文章于 2023-05-25 11:40:53 发布

原创

最新推荐文章于 2023-05-25 11:40:53 发布 · 1.5k 阅读

13 ·

CC 4.0 BY-SA版权

本文详细解读了2019腾讯广告算法大赛冠军方案，涵盖了数据预处理、特征工程、模型构建等方面。方案涉及CIN、Key-Value Memory Network、Word2Vec和DeepWalk等模型的融合，通过数据清洗、统计曝光量、异常检测等步骤，构建有监督的模型训练。模型中，CIN用于捕捉特征交互，Key-Value Memory Network用于处理浮点数特征，Word2Vec和DeepWalk则用于处理ID类特征的嵌入。文章强调了特征选择和模型融合对提升预测效果的重要性。

‍‍

点击上方“Datawhale”，选择“星标”公众号

第一时间获取价值内容

640?

作为从本次比赛共157队伍中脱颖而出的冠军方案，评分达到87.9683，从数据清洗、模型构建、目标优化等有非常多值得学习的地方。比赛团队也挺有意思，分别来自哈工大、微软研究院和京东，算是学术界和工业界的强强联合，在多个数据竞赛中都有不错的名次。

评委：“这是最接近腾讯真实业务的方案。”

本文将从源码着手，深度解读该冠军方案是如何一步步从rough data清洗、特征工程到运用多种模型融合实现最佳效果的。作为一名数据竞赛经验薄浅的算法工程师，期望尽可能的将里面涉及到的知识、技巧、模型、算法作一个细致的总结，所以行文可能比较基础难免冗长。

注：冠军方案源码可以从Datawhale今天发的文章《2019腾讯广告算法大赛-冠军之路》中获取，也可以在Datawhale 公众号后台回复关键词源码获得。

640?wx_fmt=png

背景介绍

640?wx_fmt=png

作为国内领先的大数据营销平台，全新升级的腾讯广告，以更强大的全景连接、更全链的数字智慧、更友好的人本体验等三大核心能力，构建品牌与用户的智慧连接，助力广告主高效实现商业增长。而复杂的社交场景，多样的广告形态，以及庞大的人群数据，给实现这一目标带来了不小的挑战。为攻克这些挑战，腾讯广告也在不断地寻找更为优秀的数据挖掘方式和机器学习算法。

本次算法大赛[1]的题目是源于腾讯广告业务中一个面向广告主服务的真实业务产品 ——广告曝光预估。广告曝光预估的目的是在广告主创建新广告和修改广告设置时，为广告主提供未来的广告曝光效果参考。通过这个预估参考，广告主能避免盲目的优化尝试，有效缩短广告的优化周期，降低试错成本，使广告效果尽快达到广告主的预期范围。比赛中使用的数据经过脱敏处理，通过本次大赛，我们旨在挑选出更为优秀的曝光预估算法以及遴选出杰出的社交广告算法达人。

640?wx_fmt=png

比赛赛题

640?wx_fmt=png

数据
主要是三个日志文件，分别为：

历史日志数据：广告请求时间、用户 id、广告位 id、竞价广告信息等
用户信息数据：用户 id、年龄、性别、地域、行为兴趣等
广告设置：广告操作信息、广告静态信息

目标
本次竞赛提供历史 n 天的曝光广告的数据（特定流量上采样），包括对应每次曝光的流量特征（用户属性和广告位等时空信息）以及曝光广告的设置和竞争力分数；测试集是新的一批广告设置（有完全新的广告id，也有老的广告id修改了设置），要求预估这批广告的日曝光。

评价指标
评价指标由两部分组成，准确性指标和出价单调性指标。

准确性指标SMAPE衡量了预测的准确度：

640?wx_fmt=png

单调性指标MonoScore衡量了报价与曝光量的相关性，这是对应“由于竞价机制的特性，在广告其他特征不变的前提下，随着出价的提升，预估曝光值也单调提升才符合业务直觉。”其中：

640?wx_fmt=png

最终得分是将两个指标加权相加：

640?wx_fmt=png

数据初探

640?wx_fmt=png

这次比赛的数据非常原始，日志信息的raw data，因此原始数据是脏数据。那么，建模第一步必须是数据清洗，异常检测，重复缺失值等。第二步，建模，而这里面的数据并没有给定标签，需要统计曝光量。这里面大有学问，出价不同的广告不能视为同一个广告；24小时（0-24点）间隔内未修改的广告视为同一广告，如果有修改，那么修改时间点后的广告视为新的广告。详细的数据集解读可以参考优快云上的技术博客[2][3]，对所有数据集的详细介绍见下图：

640?wx_fmt=png