AB实验和假设检验统计方法

1、AB实验的核心原理:

AB 实验将用户或样本随机分两组,A 组(对照组)维持现有或基准方案,B 组(实验组)采用新方案,保证两组除测试变量外条件一致,收集分析同期行为、反馈等数据,判断新方案能否更好达成预期。
AB实验本质:通过“控制变量法”排除干扰,科学验证改动效果。

excel实操:AB实验结果分析

在这里插入图片描述

2、假设检验:

原假设(H₀):实验组与对照组无显著差异。
备择假设(H₁):实验组效果显著优于/差于对照组。

统计检验:常用t检验、z检验(连续指标)或卡方检验(比例类指标)。

3、样本量计算:

比喻:你想调查“中国人平均身高”,如果只测10个人,结果可能偏差很大;测1万人,结果更接近真实值。

公式:
在这里插入图片描述

变量:σ(标准差)、Δ(最小可检测效应,如当前转化率20%,想检测转化率提升到22%,Δ=2%))、α和β的临界值(Z值)。
工具:使用AB Test Sample Size Calculator、G*Power、Evan’s Awesome A/B Tools快速计算。

Excel实操:

输入公式计算Z值:=NORM.S.INV ( 1-α / 2 )(α=5%时,Z≈1.96)。

4、显著性水平与统计功效

α(显著性水平):通常设为 5%,表示错误拒绝原假设的概率。

 通俗理解:显著性水平就像是一个 “严格的裁判标准”。在做 AB 测试或者其他统计检验时,我们先假设两组之间没有差异(这就是原假设),但实际收集的数据可能会显示出差异。显著性水平就是我们判断这个差异是 “真差异” 还是 “偶然出现的差异” 的一个界限。举例:假如你和朋友玩猜硬币正反面的游戏,你怀疑朋友作弊。原假设就是朋友没有作弊,即猜对的概率是 50%。你设定显著性水平 α = 0.05,这意味着如果在多次游戏后,朋友猜对的结果非常好,好到只有不到 5% 的可能性是随机发生的,你就会拒绝原假设,认为朋友可能作弊了。对结果的影响:α 值越小,这个 “裁判标准” 就越严格。如果 α = 0.01,那就意味着要更极端的结果才能让你拒绝原假设,所以犯第一类错误(错误地拒绝了原本正确的原假设)的概率就越小,但同时也更难发现真正存在的差异。 

β(统计功效):通常设为 80%,代表正确检测到真实差异的能力。

 通俗理解:统计功效可以想象成是一个 “侦探的能力”。它表示在两组实际上存在差异的情况下,我们的统计检验能够正确地检测出这种差异的概率。举例:还是刚才猜硬币的例子,统计功效就好比是你作为一个侦探,在朋友真的作弊时,你能发现他作弊的能力。如果统计功效是 0.8,那就意味着在朋友真的作弊的情况下,你有 80% 的概率能发现他作弊。影响因素:样本量越大、两组之间的真实差异越大、数据的变异性越小,统计功效就越高。就像侦探有更多的线索(样本量)、嫌疑人的作案痕迹更明显(真实差异大)、现场干扰更少(数据变异性小),就越容易破案(检测出差异)。

一类错误:(弃真)是原假设为真却拒绝;
二类错误:(取伪)是原假设为假却接受。

显著性水平与一类错误:显著性水平直接等同于犯一类错误的概率。
显著性水平与二类错误:在样本量固定的情况下,显著性水平与二类错误概率呈反向关系。

置信区间:通俗理解:置信区间就像是一个 “猜测的范围”。当我们用样本数据去估计总体的某个参数(比如总体均值)时,由于样本只是总体的一部分,我们不能确定总体参数的准确值,所以给出一个区间范围。同时,我们还会说有多大的把握这个区间包含了总体参数的真实值,这就是置信水平。举例:你想知道全校学生的平均身高,你随机抽取了一部分学生测量身高,计算出一个平均身高。然后你给出一个区间,比如 [160cm, 170cm],并说有 95% 的置信水平这个区间包含了全校学生的真实平均身高。这就好比你在猜测全校学生平均身高时,给自己留了一个范围,并且你有 95% 的信心真实值就在这个范围内。与显著性的关系:如果两个组的置信区间没有重叠,通常意味着在相应的显著性水平下,两组之间存在显著差异。例如,A 组的平均身高 95% 置信区间是 [162cm, 168cm],B 组是 [172cm, 178cm],我们可以大致认为两组的平均身高有显著差异。

5、结果解读

p值:若p<α(5%),拒绝原假设(实验组与对照组无显著差异),认为差异显著。

置信区间:例如95%置信区间不包含0,说明效应可靠。

多重检验校正:Bonferroni校正防止假阳性。

6、AB实验的实施流程

  1. 明确目标:定义核心指标(如转化率、GMV)和辅助指标(如用户满意度)。
  2. 设计实验:确定变量(如按钮颜色)、分组比例(通常50% / 50%)。
  3. 样本量预估:基于效应量、统计功效计算所需样本量。
  4. 运行实验:确保数据采集无偏(如防止缓存污染)。
  5. 数据分析:
  • 检查AA测试结果(验证系统稳定性)。
  • 使用双样本t检验、贝叶斯方法等分析差异。
  1. 决策与迭代:若结果显著(P<5%),全量上线;若不确定,延长实验或调整变量。

7、常见陷阱与解决方案

  1. 样本污染
    现象:用户多次进入不同组(如Cookie失效)。
    解决:使用持久化ID(如用户ID)分组。
  1. 新奇效应(Novelty Effect)
    现象:用户因新鲜感短期行为异常。
    解决:延长实验周期(通常1-2周)。
  1. 辛普森悖论
    现象:分组后子群体趋势与整体相反。
    解决:分层抽样或分层分析(如按地区拆分)。
  1. 多重检验问题
    现象:多次检验增加假阳性概率。
    解决:Bonferroni校正或控制FDR(错误发现率)。

8、统计检验方法(判断差异是否真实存在)

生活案例:抛硬币实验

假设你抛一枚硬币10次,出现7次正面。你怀疑硬币有问题(正面概率≠50%)。

原假设(H₀):硬币没问题(正面概率=50%)。

备择假设(H₁):硬币有问题(正面概率≠50%)。

p值:如果硬币正常,出现7次正面的概率有多大?计算发现p≈0.07(7%)。

结论:如果设定显著性水平α=5%,则p>α,无法拒绝原假设(不能证明硬币有问题)。

AB实验中的检验方法:

t检验:比较两组平均值(如人均付费金额)。

z检验:大样本时替代t检验(样本量>30)。

卡方检验:比较比例差异(如转化率)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值