前言
AB test
在实际工作中,A/B test是产品改动时常用到的手段。
为同一目标,制定两种方案,在相同时间维度下,随机分组,让用户使用两种不同的方案,并收集两组人群的用户行为数据和业务数据。
比如,通过设计两种文案/操作方式/界面风格等,通常其中一套方案是老版本,另一套方案是新版本。
在新版本上线前,先对少部分人进行AB test,根据显著性检验,检验方案是否的确可以带来特定业务指标的提升,若通过检验,才选择改版。
不过,显著性检验并不一定准确,涉及到统计功效。若统计功效低,即使通过显著性检验,也不一定能说明方案真的能够带来改进。(统计功效是啥,将会在本文具体展开)
本文主要内容:
1. A/B test显著性检验
2. 统计功效(R实现样本量计算)
3. 几种常用检验方法
A/B test显著性检验
随机将用户分为两组,用户群1使用原方案A,用户群2使用新方案B。经过一定时间积累用户数据,根据显著性检验判断新方案效果是否比原方案好。
示例
A/B test进行一周,得到两个方案的数据
方案 | 用户数 | 下单人数 | 转化率 |
---|---|---|---|
A | 88497 | 47523 | 0.537 |
B | 6219 | 3619 | 0.582 |
在这里能否说明新方案B转化效果比老方案好呢?显然是不行的,因为往往会有一些随机因素参杂其中。
因此,我们首先对该A/Btest的结果进行显著性检验。
显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。
假设检验:原假设H_0;备则假设H_1。
检验结果有四种情况。
实际为真 | 实际为假 | |
---|---|---|
检验为假 | 第一类错误α |
正确 |
检验为真 | 正确 | 第二类错误 β |
如果原假设实际为真,检验的结论却让你放弃原假设。此时称为犯了第一类错误α
;
如果原假设实际为假,检验对结果却让你不放弃原假设,此时称为犯了第二类错误β
。
不考虑第二类错误β
,只限定犯第一类错误的最大概率α
,这样的假设检验称为显著性检验,概率α
称为显著性水平。一般α
取值为0.1,0.05或0.01.α
越大说明越可能犯第一类错误,就是条件太严格,更容易拒真。
一般而言,把你希望得到的结果作为备择假设。
因为拒绝才是有意义的ÿ