推荐系统-CTR平滑方式

最新推荐文章于 2022-06-21 18:13:45 发布

原创

最新推荐文章于 2022-06-21 18:13:45 发布 · 3.4k 阅读

7 ·

CC 4.0 BY-SA版权

背景

在电商领域中，经常要计算或者CTR（点击通过率），CVR。以点击率CTR为例，CTR根据统计指标 CTR = 点击量/ 曝光量；具体需要看公司要求，有的是点击uv/ 曝光uv ，有的是点击pv/曝光pv ；然而实际应用中，会遇到两个问题：

【新品问题】新商品点击率的预测和计算问题
对于新上线的商品，其曝光为0，点击量也为0，此时这件商品的CTR应该为0 还是赋值一个初始值呢？
【数据不可信问题】不同商品点击率之间的比较
有两件商品A和B ，商品A曝光了10次点击了5次，商品B曝光了100次点击率50次
Click_a = Click_b 这样合理吗？从置信度的角度来说，Click_b更加可信。

理论基础

对于一件商品或者或者一个广告，对于某次曝光，用户要么点击，要么不点击，符合二项分布。因此下文对于点击率的贝叶斯平滑，都是基于以下假设：
对于某件商品或者广告X ，其是否点击是一个伯努利分布（Bernoulli）： $x∈Ber(r)x\in Ber(r)$
X表示是否点击，当X=1时表示点击，当X=0时表示未点击，r表示某件商品被点击的概率，即点击率。

bayes & Wilson

指标	含义
bayes	贝叶斯平滑的最终落脚点是要估计Beta分布（点击率r服从的分布）中的参数α和β
Wilson	指在一定置信度下，真实的 CTR 范围是多少

Bayes 分布

共轭先验

如果能够找到一个分布：π®，它是f(x│r)的共轭先验，那么r的后验分布π(r|x) 和先验分布π(r）会有一样的形式。这里的共轭指的是π® 和π(r|x) 通过 f(x|r) 联系起来了。
假设广告是否点击服从伯努利分布，参数为r ；对于点击次数服从二项分布，即 f(click,expose|r)∼Bin®。二项分布的共轭先验是beta分布，beta分布的参数是
α和β，即π® =Beat(α,β) 。根据共轭先验的定义，r的后验分布π(r|x)的形式和其先验分布π®是一样的.
1. π(r|x)=Beta(α, β)
为什么很多文章会假设点击率服从Beta分布的理由，因为最终的平滑的因子是Beta分布（先验分布）中的两个参数。