【点击模型学习笔记】Ad centric model discovery for redicting ads' click through rate_ANT2013_Tencent

本文探讨了腾讯Soso广告系统中点击率预测的实现方式,详细介绍了系统如何将用户点击数据进行处理并存储,采用线性回归模型进行CTR预测。文章还涵盖了特征选择过程,包括用户、位置、广告商和查询相关特征,并通过实验验证了模型的准确性。
腾讯soso的人写的一篇文章,介绍soso广告系统的ctr预估技术。2013年的,应该反映了当前soso的ctr预估系统的情况。
ANT会议质量一般,elsevier出版社出版。搞笑的是,文章摘要居然把论文模板上的这句话“Click here and insert your abstract text”原封不动的写在了第一句,并且就这样发表了!

主要内容:
描述soso搜索结果页面中广告点击率预测的系统实现。

具体内容:

1. 相关工作
Rechardson用逻辑回归来预测ctr
kim用图模型来试图解释用户点击行为,利用了一些user-specified的特征
Dembczynski用decision rules

2. 系统实现
从文章的表述上看,貌似soso把用户的点击数据存储到了一个db里面,而且不是存储的原始数据,而是处理过的session数据,结果是造成了一定数据损失。进一步的结果是,作者不能够像Rechardson一样用逻辑回归模型,作者采用了线性回归模型,即各个因素线性加权,结果就是估计出的ctr数值。
从文章中看,用户针对每种特征都做了一定的统计处理,转成了实数,如:20-30岁年龄段人群的平均ctr的数值是多少。因此,模型输入的是实数特征值。经过线性加权后,模型输出的也是实数值。模型的target数值,应该是当前这个样本(广告展示和用户点击pair)的一段时间以来实际的ctr统计值。并且,为了避免数据稀疏问题,训练样本在展示次数和点击次数上都有一定的阈值要求。

3. 特征选取
作者在实现的时候引入了如下几种特征:
(1)user-based feature
如:不同年龄用户对于不同类型广告的平均ctr
(2)position-based feature
如:在不同展示位置的平均ctr
(3)advertiser-based feature
如:不同广告主的广告的ctr
(4)query-ad relevant feature
利用了广告中的词语和query中的词语的重合情况,类似jaccard距离

4. 实验
作者把ctr估计问题变成了曲线拟合问题(回归问题),测试的时候,也是比较
计算出来的ctr与实际的ctr的拟合情况。
值得注意的是,作者在做特征选择的时候,用到了显著性检验,p-value。计算每个特征的系数的p-value,从而决定是否要cut掉这个特征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值