1. 基本问题
检验指标分类
AB测试的检验指标可以分为两大类:绝对值指标、比例值指标。两者的方差计算方式不同。
其中比例值根据分母不同又可分为两类:分母为人次(留存率、转化率等)、分母为行为次数(曝光点击率)。
分母为人次,分流单位和分析单位相同,可以用 z z z检验;分母为行为次数,分析单位之间不独立,要用 d e l t a delta delta检验。
多天累计值
将指标在多天的表现累计合并计算。比如某行为的人均次数,则分母是实验期间该行为的总次数,分子是实验期间进组的去重人数。
优点:保证样本之间独立;增加样本量,显著性可以随着累积而增加。
留存率的多天累计:分天计算每天新进组人的留存率,再根据人数加权。
不能用AB的情况
- 不能控制干预变量时(比如看直播对用户的影响,不能强制一部分人看,一部分人不看)
- 所占用流量过多
- 策略可能损害用户体验
AB实验步骤
确定实验策略;制定实验的观察指标;计算样本量(显著性水平/统计功效/需要观察到的指标最小提升水平/指标方差);实验开发上线;数据回收。
AB不显著
- 是否达到最小样本量
- DID消除固定差异
- 检查实验链路,看是否所有人都被策略触达(渗透率低,可以PSM)
2. delta检验
见上篇,适用于分流单元和分析单元不同的情况。
3. 贝叶斯检验
优点:
- 不需要考虑样本量。
- 可以得到后验参数的分布,进而量化指标提升的概率、指标提升的大小。
贝叶斯派 VS 频率派 基本理论:
先验分布 π ( θ ) \pi(\theta) π(θ) + 样本数据 P ( X ∣ θ ) P(X|\theta) P(X∣θ) = 后验分布 π ( θ ∣ X ) \pi(\theta|X) π(θ∣X)
共轭先验分布:贝塔分布 与 二项分布
θ \theta