AB Test 的基本原理看似简单,但在实际业务中能够正确使用 AB Test 却并不容易,实验者需要对实验技术和业务特征都有刻深的理解。本文我们将盘点一下 AB Test 实际应用中的那些“坑”,主要从实验设计和实验分析两部分来讨论,希望给从事相关工作的同学带来一点帮助。
▐ 1. 实验设计中的坑
1.1 功效分析的缺乏
功效分析(Power Analysis)的目的是确定样本量,是 AB Test 的基本步骤。但在实践中,功效分析常常会被忽略,常见原因主要有以下两点:
功效分析的基本参数缺乏 功效分析有三个基本参数:1) 显著性水平,即犯第一类错误的概率;2) 统计功效(statistical power),即 1 - 犯第二类错误的概率;3) 实验的最低效果。其中参数1和2一般很少有争议,大家通常遵循统计学惯例,取显著性水平 = 0.05,统计功效 = 0.8。但实验的最低效果则见仁见智,这一参数的选取具有很大的主观性:首先,一个实验通常有多个目标,有若干指标需要被优化或监控,要基于哪一个指标的最低效果不容易达成共识。其次,最低效果是一个事先猜测值,通常没有数据能给予支持。唯一可能的数据来源是之前类似的实验,但很多实验不一定有相似的先例,大多公司也不一定能对实验结果有系统性的记录。
很多实验的样本量不由实验者控制 实验的实施过程通常服务于业务的需求,因此样本量的决定通常并不基于功效分析,而是基于业务逻辑。
在流量实验中,样本量由两个因素决定:实验流量占比和实验周期,原因在于 PV 大致可以认为在时间上是彼此独立的,不同时间上的 PV 可以被当作同一个样本池来看待。但是流量占比和实验周期通常都由业务方来决定并已经形成惯例,比如涉及用户交互界面的实验被认为比较有风险,通常以不高于1%的流量进行实验,又比如一般业务方会希望实验需要在两周内完成,以实现决策效率。
在客户实验中,随机化单位一般是客户,并不随时间改变。在这类实验中,样本量的天花板就是合适进行实验的全体客户,比如某个 B 端产品的活跃客户。由于这个集合通常并不会很大,并且不可能通过增加实验时长来增加样本量,实验者对于样本的量的控制力其实非常有限。
缺乏功效分析的一个直接后果就是用于统计检验的样本不足。对于 AB Test 而言,样本量的不足会导致更高的第二类错误,即无法在给定的时间内发现错误的原假设。此外,对于 AA Test 而言,样本量不足导致的第二类错误同样可能造成严重的影响 —— 实验组和对照组之间的系统性差异在实验前因样本量不足而未被即使发现,之后的 AB Test 的整体可靠性也就大打折扣了。
1.2 “先看看再说谬误”
"Peeking"这个术语目前尚未有统一的翻译,这里先不妨称为“先看看再说谬误”,这一谬误的具体表现同样是不依据功效分析来确定实验时长,但由于它的普遍性,值得被单独列举出来。
"Peeking"是指实验者在既定实验完成前就去检查实验的结果并以此作为决策的依据。一般来说,监控实验过程是必不可少的,但是基于实验过程中的结果(比如关键指标双样本t检验的p值)来进行决策,比如决定

本文探讨了ABTest在实际应用中的常见误区,包括实验设计与分析阶段的问题,如功效分析缺失、样本比例偏移及不合理指标分析等,并提出了针对性建议。
最低0.47元/天 解锁文章
490

被折叠的 条评论
为什么被折叠?



