定义
- 在日常生活中我们常常需要做出决策,而我们在做决策时一定要预估事件可能发生的结果及概率。假设检验就是一种判断某个事件发生的可能性时使用的科学方法,它常常是先提出一个假设,即原假设;与之对应的是备择假设。假设检验的作用就是判断原假设成立的概率有多大
p-value
- 在假设检验当中,假设检验的结果通常不是百分之百成立的。我们推断得出的假设往往只在一定概率下成立。用于衡量这一概率的指标就是 p-value,也称作置信水平。它的内涵是衡量一个推断的可信程度
单侧假设
这个概念很容易混淆,此处通过一个案例以表格的形式来展示:
假设 | 单边检验 | 双边检验 |
---|---|---|
原假设 | 药物无效 | 药物无效 |
备择假设 | 药物有负面作用 | 药物有效 |
在学习之前,我曾经以为原假设与备择假设之间一定是对立的关系,学习之后我发现其实两者不一定是对立关系,但一定是互斥关系。参考茆诗松的概率论与数理统计一书中假设检验的定义:
理清原假设与备择假设的关系之后,我们可以发现单侧检验与双侧检验之间的区别。以图示为例,单侧检验的备择假设应该是命题1或命题2,而双侧检验的备择假设应该是命题3
Z-统计量 vs T-统计量
- 当样本数量足够大 ( z > 30 ) (z>30) (z>30)时,样本抽样均值分布服从正态分布,此时可使用Z-分数表
- 当样本数量很小 ( z < 30 ) (z<30) (z<30)时,样本抽样均值分布服从 t t t分布,此时应使用 t t t分布表
第一类错误
- 即拒绝了正确的原假设
随机变量之差的方差
先列出几个前提条件:
- 若 Z = X + Y Z = X + Y Z=X+Y, E ( Z ) = E ( X + Y ) = E ( X ) + E ( Y ) E(Z) = E(X+Y) = E(X)+E(Y) E(Z)=E(X+Y)=E(X)+E(Y)
- 若 A = X − Y A = X - Y A=X−Y, E ( A ) = E ( X − Y ) = E ( X ) − E ( Y ) E(A) = E(X - Y) = E(X)-E(Y) E(A)=E(X−Y)=E(X)−E(Y)
等式成立的证明可以用期望的基本计算公式证得。
若
X
与
Y
X与Y
X与Y 之间相互独立,则
σ
Z
2
=
σ
X
2
+
σ
Y
2
\sigma_{Z}^{2} = \sigma_{X}^{2} + \sigma_{Y}^{2}
σZ2=σX2+σY2,证明如下:
∵ σ X 2 = E ( X 2 ) − E ( X ) 2 , \because \sigma_{X}^{2} = E(X^{2}) - E(X)^{2}, ∵σX2=E(X2)−E(X)2, σ Y 2 = E ( Y 2 ) − E ( Y ) 2 , \sigma_{Y}^{2} = E(Y^{2}) - E(Y)^{2}, σY2=E(Y2)−E(Y)2,
C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) , Cov(X,Y) = E(XY) - E(X)E(Y), Cov(X,Y)=E(XY)−E(X)E(Y),
∴ σ Z 2 = E [ ( X + Y ) 2 ] − [ E ( X + Y ) ] 2 \therefore \sigma_{Z}^{2} = E[(X+Y)^{2}] - [E(X+Y)]^{2} ∴σZ2=E[(X+Y)2]−[E(X+Y)]2
= E ( X 2 + Y 2 + 2 X Y ) − [ E ( X ) + E ( Y ) ] 2 = E(X^{2} + Y^{2} + 2XY) - [E(X) + E(Y)]^{2} =E(X2+Y2+2XY)−[E(X)+E(Y)]2
= E ( X 2 + Y 2 + 2 X Y ) − E ( X ) 2 − E ( Y ) 2 − 2 E ( X ) E ( Y ) = E(X^{2} + Y^{2} + 2XY) - E(X)^{2} -E(Y)^{2} - 2E(X)E(Y) =E(X2+Y2+2XY)−E(X)2−E(Y)2−2E(X)E(Y)
= E ( X 2 ) + E ( Y 2 ) − E ( X ) 2 − E ( Y ) 2 + 2 [ E ( X Y ) − E ( X ) E ( Y ) ] = E(X^{2}) + E(Y^{2}) - E(X)^{2} -E(Y)^{2} + 2[E(XY)-E(X)E(Y)] =E(X2)+E(Y2)−E(X)2−E(Y)2+2[E(XY)−E(X)E(Y)]
= σ X 2 + σ Y 2 + 2 C o v ( X , Y ) = \sigma_{X}^{2} + \sigma_{Y}^{2} + 2Cov(X,Y) =σX2+σY2+2Cov(X,Y)
其中 C o v ( X , Y ) Cov(X,Y) Cov(X,Y)是随机变量 X X X和 Y Y Y的协方差,若 X X X和 Y Y Y相互独立,则协方差为0,得证。当 Z = X − Y Z = X-Y Z=X−Y时同理,也可得出相同结论
样本均值之差的分布
由上面得出的结论可以推断出:
μ X ‾ − Y ‾ = μ X ‾ − μ Y ‾ \mu _{ \overline{X} - \overline{Y}} = \mu_{\overline{X}} - \mu_{\overline{Y}} μX−Y=μX−μY
σ X ‾ − Y ‾ 2 = σ X ‾ 2 + σ Y ‾ 2 \sigma_{\overline{X} - \overline{Y}}^{2} = \sigma_{\overline{X}}^{2} + \sigma_{\overline{Y}}^{2} σX−Y2=σX2+σY2
均值之差的假设检验
流程同单变量均值的假设检验,仅在构造统计量时产生差异