背景
在电商领域中,经常要计算或者CTR(点击通过率),CVR。以点击率CTR为例,CTR根据统计指标 CTR = 点击量/ 曝光量;具体需要看公司要求,有的是点击uv/ 曝光uv ,有的是点击pv/曝光pv ;然而实际应用中,会遇到两个问题:
- 【新品问题】新商品点击率的预测和计算问题
对于新上线的商品,其曝光为0,点击量也为0,此时这件商品的CTR应该为0 还是赋值一个初始值呢? - 【数据不可信问题】不同商品点击率之间的比较
有两件商品A和B ,商品A曝光了10次点击了5次,商品B曝光了100次点击率50次
Click_a = Click_b 这样合理吗?从置信度的角度来说,Click_b更加可信。
理论基础
对于一件商品或者或者一个广告,对于某次曝光,用户要么点击,要么不点击,符合二项分布。因此下文对于点击率的贝叶斯平滑,都是基于以下假设:
对于某件商品或者广告X ,其是否点击是一个伯努利分布(Bernoulli):x∈Ber(r)x\in Ber(r)x∈Ber(r)
X表示是否点击,当X=1时表示点击,当X=0时表示未点击,r表示某件商品被点击的概率,即点击率。
bayes & Wilson
| 指标 | 含义 |
|---|---|
| bayes | 贝叶斯平滑的最终落脚点是要估计Beta分布(点击率r服从的分布)中的参数α和β |
| Wilson | 指在一定置信度下,真实的 CTR 范围是多少 |
Bayes 分布
共轭先验
-
如果能够找到一个分布:π®,它是f(x│r)的共轭先验,那么r的后验分布π(r|x) 和先验分布π(r)会有一样的形式。这里的共轭指的是π® 和π(r|x) 通过 f(x|r) 联系起来了。
-
假设广告是否点击服从伯努利分布,参数为r ;对于点击次数服从二项分布,即 f(click,expose|r)∼Bin®。二项分布的共轭先验是beta分布,beta分布的参数是
α和β,即π® =Beat(α,β) 。根据共轭先验的定义,r的后验分布π(r|x)的形式和其先验分布π®是一样的.- π(r|x)=Beta(α, β)
-
为什么很多文章会假设点击率服从Beta分布的理由,因为最终的平滑的因子是Beta分布(先验分布)中的两个参数。
Beta 参数α和β的估计
贝叶斯平滑的最终落脚点是要估计Beta分布(点击率r服从的分布)中的参数α和β
利用矩估计可以得到:
- α=X^(X^(1−X^)S2−1)\alpha = \hat X(\frac{\hat X(1-\hat X)}{S^2}-1)α=X^(S2X^(1−X^)−1)
- β=(1−X^)(X^(1−X^)S2−1)\beta = (1-\hat X)(\frac{\hat X(1-\hat X)}{S^2}-1)

最低0.47元/天 解锁文章
750





