1.A/B test (如何通过实验做到增长)
增长产品的利器-A/B test
来源是从医院发明,医生在做新药的时候,不清楚药品是否有效果,就会安排2波人来测试,一个人吃新药,一个人吃另外一种药品,来测试药物的药性,放到现在来看,这样的方法是不精准的,其实A/B test是有一套严格的科学方法的
介绍之前首先我们先了解A/B test的三大特性
1.先验性
抽样代替整体
抖音等大DAU产品要求新功能必须A/B
比如做一个个人主页的更新,头像,从图片变为gif,我们可以先抽取几万或者几十万的数据量来进行测试,周期性的在增加用户数量进行反复测试,从而达到全面用户侧上线的可能性
2.高效性
多个实验同时进行互不影响
抖音同时在跑上千个实验
实验之间是相互不影响的
3.科学性
假设检验,降低第一第二类错误的概率
A/B test对增长的帮助
1.降低风险
小流量实验随时回滚
2.加快迭代效率
多个维度同时实验
A/B test的通用流程
实验改动-核心指标确定-样本量周期确定-流量分割-AB灰度测试-AB测试上线-效果评估验证
A/B test难点1:最小样本量计算
A/B 测试样本量的理论依据,大数定律和中心极限定理
1.大数定律: 当试验条件不变时,随机试验重复多次以后, 随机事件的频率近似等于随机事件的概率。
2. 中心极限定理:对独立同分布且有相同期望和方差的n个随机变量, 当样本量很大时,样本的均值近似服从标准正态分布N(0,1)
什么是A/B test
最小样本量计算
简单来说,就是当样本量足够大时,他就可以代表整体的性质,但关键是,足够大,有多大? 我们希望的是,用恰好能够统计学显著的样本量,别用太多,影响用户体验,也别太少,达不到实验目的

1
、
α
为犯第一类错误的概率, 把没有犯第一类错误的概率1- α
称为置信水平一般情况下, α
取值为
0.05
。
2
、
β
为犯第二类错误的概率, 把统计功效定义为1-β
, 一般情况下, β
取值
0.2
, 则统计功效的取值为0.8
。
约等于8
例
某交友
app
的个人主页
平均停留时长的是20
秒(标准差)
优化了头像照片后
预估至少有
5
秒的绝对提升(组间差异)
AB
测试每个组需要的最少样本量:
σ=20
,
δ=5
A/B test
最小样本量计算
-
实用网址
www.evanmiller.org/ab-testing/sample-size.html
Baseline …..
当前的数值
比如点击率,下单率,停留时长
Minimum…
预期提升的数值
比如点击率提升
3
个点
停留时长增加
10s
A/B test 的易错点—辛普森悖论

两人赛季总投篮球 100次,问谁的总得分更高?
不一定,我们要求确定2位球员2分和3分的的相同投篮数量才去比较谁的得分更高
例
我们交友app,新上一个女用户头像gif功能,增加申请好友率
我们平台周六周日日活大,就定在周六上午8点开始了
实验结果出来了,更换gif后,总点击率还降低了0.3%
“产品经理确实不行,回滚!” </