1 前言
上回书说到最小样本量的选择更侧重单样本或两样本均值和比率的检验。关于多个样本的均值检验可以另开一篇ANOVA方差分析(Analysis of Variance)来讲。新的一年从扶起去年的flag开始,所以我来填坑啦!
开始之前先思考一个问题:已经有了万能又好用的AB test,为什么还需要方差分析呢?答案很简单,在生产环境中,我们感兴趣的因变量通常会受到众多因素的影响。比如新药的有效性受到适应症、剂量、给药途径和方法、每日给药次数等条件的影响,比如商品销量受到广告投放,商品价格,淡旺季等等条件的影响。此外,每个影响因素可能有多个观测水平。比如网页的UI设计可能有ABCDEFG多个版本(毕竟听说同样是黑,也可能有五彩斑斓的黑)。当老板问你,这些因素对因变量是否有影响,以及因素的每一个水平的观测值是否有显著不同时,此时只侧重单因素两水平的AB test略显捉急,除非我们两两排列组合,测到天荒地老,然而多次检验会使得犯第一类错误的概率大大增加,且无法同时考虑所有的样本。这时候就需要ANOVA前来救场了。
2 原理介绍
在单因素的情况下,ANOVA方差分析实际上还是用来比较多个样本的均值是否相同/多个样本是否同分布,那为什么要叫方差分析呢?简单来说,它来源于对误差的分解。我们用样本的离差平方和来衡量总体的误差,总体误差SST(Sum of Square for Total)= 组内随机误差SSE(Sum of Square for Error)+ 组间误差SSA(Sum of Square for factor A)。统计量如下。SSE除以其自由度相当于每组内自身的方差,SSA除以其自由度相当于每组相对于总体的方差。当样本服从正态分布的时候,离差平方和服从卡方分布,因此该统计量相当于两个卡方分布之比,即为服从F分布。当F统计量越大时,说明分母小,组内方差小,都很集中;分子大,组间方差大,每组分隔较远,越趋向于拒绝多样本均值相同/同分布的原假设。
ANOVA方差分析:理解与应用

ANOVA方差分析用于多个样本均值的检验,避免多次检验带来的第一类错误增加。它通过分解误差平方和,利用F统计量判断样本是否同分布。包括单因素与多因素方差分析,适用于正态分布且方差齐性的数据。在不满足正态性时,可采用非参数检验。
最低0.47元/天 解锁文章
7749





