假设检验和AB测试

本文深入讲解假设检验的核心概念,包括零假设与备择假设、检验步骤、第一类和第二类错误,以及如何选择合适的α水平。同时,文章探讨了单侧检验与双侧检验的区别,解释了t检验的应用条件,并介绍了cohend系数衡量效应大小的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


注:零假设,又称为虚无假设,一般表述为没有影响、没有效应等。

假设检验的步骤

假设检验的目标是确定一个特定的处理对于总体的作用是否存在。

  1. 提出假设,选择 α \alpha α水平
  2. 定位拒绝域
  3. 计算检验统计量
  4. 做出决定
    当步骤3中的检验统计量位于拒绝域时,拒绝零假设。

假设检验中的不确定性和误差

第一类错误:弃真

在零假设(虚无假设)为真时,拒绝零假设。
发生原因: 在随机选择样本时,可能选择了极端样本,其与假设代表的总体非常不同,即样本含有的信息可能是错误的。
发生的概率: 当研究者在不知情的情况下使用了一个极端、没有代表性的样本时,就会犯第一类错误。但是幸运的是,犯第一类错误的概率很小,并且在研究者的控制中(控制 α \alpha α显著水平)犯第一类错误的概率等于 α \alpha α显著水平

第二类错误:取伪

发生原因: 即使处理对样本存在影响,但是样本均值不在拒绝域时,就会发生第二类错误。一般发生在处理效应比较小的时候,在这种情况下,处理确实影响了样本,但是影响没有足够大到将样本均值移到拒绝域。

假设检验中 α \alpha α水平的作用:

(1)确定拒绝域的界限
(2)决定当零假设为真时,犯第一类错误的概率

如何选取合适的 α \alpha α水平?

α \alpha α应当是一个很小的值 ,根据惯例,最大允许值为0.05。但是也不能太小, α \alpha α小了,虽然可以减小犯第一类错误的概率,但同时就需要效应足够强时,才会拒绝零假设。一般,常用的 α \alpha α值为0.05,0.01,0.001,它们提供了一个相对小的犯第一类错误的概率并且没有对研究结果有过多严格要求。

报告假设检验的结果

在报告假设检验的结果时,一般不会明确的告诉你研究者用z分数和 α \alpha α水平为0.05的检验统计来评价数据,也不会告诉你“拒绝零假设”,一般表述与下面类似:
对顶叶的电刺激对数学测验成绩有显著的作用,z=2.25, p<0.05
几个问题:

  • 什么叫显著?
    显著意味着拒绝零假设极不可能由于偶然因素而导致。当零假设为真,极不可能的结果发生时,我们说一个结果显著,或者统计上显著。注意一个效应显著不代表这个效应是大的,显著描述的是一个效应的相对大小,即处理效应引起的差异比由偶然因素引起的差异(标准差)的大小,如Z分数的定义:
    Z = M − μ σ Z=\frac{M-\mu}{\sigma} Z=σMμ

  • z=2.25什么意思?
    z表示z分数作为检验统计量,被用来评价样本数据,它的值为2.25。

  • p<0.05什么意思?
    0.05为显著性水平 α \alpha α
    p = P ( 结 果 发 生 ∣ H 0 为 真 ) p=P(结果发生| H_0为真) p=P(H0)
    因此当p<0.05(说明在原假设成立的情况下,根据实际样本计算出来的统计量落在了拒绝域)时拒绝零假设。


用于假设检验的数学知识基于一系列前提,当这些前提被满足时,你能确定产生的结果是合理的。但是,如果这些前提不能被满足,假设检验效果可能被折中。在实践中,研究者不会过于关注假设检验的前提,因为即使违背这些前提,检验也可以进行的很好。

单侧检验和双侧检验

单侧检验和双侧检验的主要区别是它们拒绝零假设的标准不一样。双侧检验需要更多的证据来拒绝零假设,因为双侧检验时,拒绝域处在概率分布的两端,拒绝域的边界离总体均值更远,因此需要更多的证据来拒绝虚无假设。单侧假设的拒绝域集中在概率分布的一端,拒绝域边界离总体均值较近。因此一个相对较小的处理效应可能单侧检验显著但是双侧检验不显著。

  • 什么时候用单侧检验,什么时候用双侧检验?
    备择假设没有特定的方向性,形式为“≠”的检验假设要用双侧检验;
    备择假设带有特定的方向性,形式为“>”或“<”的检验假设要用单侧检验。

检验统计量

常用的检验统计量
使用 t 检验的两个条件:

  • 小样本(n<30)
  • σ \sigma σ未知
    t值的计算公式为:
    t = M − μ s / n , M 为 样 本 均 值 , μ 为 总 体 均 值 , s 为 样 本 标 准 差 , n 为 样 本 中 个 体 的 数 量 t=\frac{M-\mu}{s/\sqrt{n}},M为样本均值,\mu为总体均值,s为样本标准差,n为样本中个体的数量 t=s/n Mμ,Mμsn
    注:标准差与标准误:标注差为总体分布的标准差,标准误为样本均值分布的标准差,计算公式为 σ m = σ n \sigma_m=\frac{\sigma}{\sqrt{n}} σm=n σ。当总体标准差未知时,可以使用估计标准误 s m = s n s_m=\frac{s}{\sqrt{n}} sm=n s

衡量假设检验效应的大小

假设检验的结果只是单纯的给出是否有显著差异,但是并没用给出这个差异的大小,那么该如何衡量这个差异的大小呢?答案是cohen d系数(标准化均值差异)。
标准化均值差异
在这里插入图片描述

AB测试

如上所述,假设检验是研究如何根据抽样的样本来检验抽样前所做假设是否合理的。AB测试本质上是一个假设检验的过程:AB测试首先对实验组和对照组的关系提出某种假设,然后计算实验组和对照组样本之间的差异然后确定该差异是否存在统计学上的显著性,最后根据上述结果对假设做出判断。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值