注:零假设,又称为虚无假设,一般表述为没有影响、没有效应等。
假设检验的步骤
假设检验的目标是确定一个特定的处理对于总体的作用是否存在。
- 提出假设,选择 α \alpha α水平
- 定位拒绝域
- 计算检验统计量
- 做出决定
当步骤3中的检验统计量位于拒绝域时,拒绝零假设。
假设检验中的不确定性和误差
第一类错误:弃真
在零假设(虚无假设)为真时,拒绝零假设。
发生原因: 在随机选择样本时,可能选择了极端样本,其与假设代表的总体非常不同,即样本含有的信息可能是错误的。
发生的概率: 当研究者在不知情的情况下使用了一个极端、没有代表性的样本时,就会犯第一类错误。但是幸运的是,犯第一类错误的概率很小,并且在研究者的控制中(控制
α
\alpha
α显著水平)犯第一类错误的概率等于
α
\alpha
α显著水平
第二类错误:取伪
发生原因: 即使处理对样本存在影响,但是样本均值不在拒绝域时,就会发生第二类错误。一般发生在处理效应比较小的时候,在这种情况下,处理确实影响了样本,但是影响没有足够大到将样本均值移到拒绝域。
假设检验中 α \alpha α水平的作用:
(1)确定拒绝域的界限
(2)决定当零假设为真时,犯第一类错误的概率
如何选取合适的 α \alpha α水平?
α \alpha α应当是一个很小的值 ,根据惯例,最大允许值为0.05。但是也不能太小, α \alpha α小了,虽然可以减小犯第一类错误的概率,但同时就需要效应足够强时,才会拒绝零假设。一般,常用的 α \alpha α值为0.05,0.01,0.001,它们提供了一个相对小的犯第一类错误的概率并且没有对研究结果有过多严格要求。
报告假设检验的结果
在报告假设检验的结果时,一般不会明确的告诉你研究者用z分数和
α
\alpha
α水平为0.05的检验统计来评价数据,也不会告诉你“拒绝零假设”,一般表述与下面类似:
对顶叶的电刺激对数学测验成绩有显著的作用,z=2.25, p<0.05
几个问题:
-
什么叫显著?
显著意味着拒绝零假设极不可能由于偶然因素而导致。当零假设为真,极不可能的结果发生时,我们说一个结果显著,或者统计上显著。注意一个效应显著不代表这个效应是大的,显著描述的是一个效应的相对大小,即处理效应引起的差异比由偶然因素引起的差异(标准差)的大小,如Z分数的定义:
Z = M − μ σ Z=\frac{M-\mu}{\sigma} Z=σM−μ -
z=2.25什么意思?
z表示z分数作为检验统计量,被用来评价样本数据,它的值为2.25。 -
p<0.05什么意思?
0.05为显著性水平 α \alpha α,
p = P ( 结 果 发 生 ∣ H 0 为 真 ) p=P(结果发生| H_0为真) p=P(结果发生∣H0为真)
因此当p<0.05(说明在原假设成立的情况下,根据实际样本计算出来的统计量落在了拒绝域)时拒绝零假设。
用于假设检验的数学知识基于一系列前提,当这些前提被满足时,你能确定产生的结果是合理的。但是,如果这些前提不能被满足,假设检验效果可能被折中。在实践中,研究者不会过于关注假设检验的前提,因为即使违背这些前提,检验也可以进行的很好。
单侧检验和双侧检验
单侧检验和双侧检验的主要区别是它们拒绝零假设的标准不一样。双侧检验需要更多的证据来拒绝零假设,因为双侧检验时,拒绝域处在概率分布的两端,拒绝域的边界离总体均值更远,因此需要更多的证据来拒绝虚无假设。单侧假设的拒绝域集中在概率分布的一端,拒绝域边界离总体均值较近。因此一个相对较小的处理效应可能单侧检验显著但是双侧检验不显著。
- 什么时候用单侧检验,什么时候用双侧检验?
备择假设没有特定的方向性,形式为“≠”的检验假设要用双侧检验;
备择假设带有特定的方向性,形式为“>”或“<”的检验假设要用单侧检验。
检验统计量
使用 t 检验的两个条件:
- 小样本(n<30)
-
σ
\sigma
σ未知
t值的计算公式为:
t = M − μ s / n , M 为 样 本 均 值 , μ 为 总 体 均 值 , s 为 样 本 标 准 差 , n 为 样 本 中 个 体 的 数 量 t=\frac{M-\mu}{s/\sqrt{n}},M为样本均值,\mu为总体均值,s为样本标准差,n为样本中个体的数量 t=s/nM−μ,M为样本均值,μ为总体均值,s为样本标准差,n为样本中个体的数量
注:标准差与标准误:标注差为总体分布的标准差,标准误为样本均值分布的标准差,计算公式为 σ m = σ n \sigma_m=\frac{\sigma}{\sqrt{n}} σm=nσ。当总体标准差未知时,可以使用估计标准误 s m = s n s_m=\frac{s}{\sqrt{n}} sm=ns。
衡量假设检验效应的大小
假设检验的结果只是单纯的给出是否有显著差异,但是并没用给出这个差异的大小,那么该如何衡量这个差异的大小呢?答案是cohen d系数(标准化均值差异)。
AB测试
如上所述,假设检验是研究如何根据抽样的样本来检验抽样前所做假设是否合理的。AB测试本质上是一个假设检验的过程:AB测试首先对实验组和对照组的关系提出某种假设,然后计算实验组和对照组样本之间的差异然后确定该差异是否存在统计学上的显著性,最后根据上述结果对假设做出判断。