评估策略效果,AB实验有收益,但上线后无收益,可能是什么原因呐?
假设检验第一类错误
当显著性水平出现 a = 0.05时,AB实验中,实验组没有效果,但是实验系统判定为有效果,这个错误概率就是5%,所以一切正常的情况下,有5%的概率实验有效果,全量上线之后没有效果,这个原因无法避免,大约20次实验就会出现这样的情况
偷窥实验
实验过程中反复查看实验结果,当发现实验显著的时候停止实验。这个问题是实际工作中最容易产生的问题。从理论上讲,如果每积累5%的所需样本量,就查看一次实验结果,指标假阳的概率就会从5%上升到20%以上。
新奇效应
如果一个策略对用户短期内有收益,长期没效果,而实验的周期又不够长,就有可能产生新奇效应导致的假阳
分流导致辛普森悖论
如果实验用户的结构与全量的用户结构不同,就可能发色会给你辛普森悖论,导致实验有效,实际推全量后无效
关注的核心指标太多了
过多的指标会带来对比问题,如果一个实验关注的核心指标太多,某一个指标有显著提升效果,就上线实验策略,同样会使得指标的假阳率提升