假设检验
一、假设检验的基本思想
运用试验结果对于一个命题的对错进行判断,假如试验结果与假设H发生矛盾就拒绝原假设H,否则就接受原假设.
二、假设检验的基本步骤
1、 建立假设
其中表示原假设,
表示备择假设.
2、 选择检验统计量
选择一个合适的检验统计量,使当原假设成立时,该统计量的分布完全已知。
3、 选择显著性水平as
由于样本的随机性,我们做出的判断并不能保证结论完全正确,而是会犯错的.显著性水平的选择是为了控制我们犯错的概率尽量小,以保证检验的结果是可以接受的。统计学上最常用的显著性水平是0.05,有时也选择0.10或0.01.
4、 给出拒绝域
在确定显著性水平后,我们可以定出检验的拒绝域.
5、 作出判断
通过检验统计量判断样本是否属于拒绝域,若是,则拒绝原假设,否则接受原假设.
三、检验的p值
在一个假设检验问题中,利用样本观测值能够做出“拒绝原假设”这一判断的最小显著性水平,就是检验的p值.
下面通过例子来直观说明p值含义:
例1
生物学家要研究某种药物对小白鼠反应时间是否有影响,实验测得100只经过药物作用的小白鼠的平均反应时间是1.05秒,样本标准差为0.5秒.已知小白鼠在未经药物作用时的平均反应时间为1.20秒,问药物对小白鼠的反应时间有无影响?
解答该问题首先提出假设:
:药物对小白鼠反应时间无影响. vs
:药物对小白鼠反应时间有影响.
由已知条件我们可以推断正常的小白鼠反应时间总体服从均值为1.2,标准差为0.05的正态分布(如图1).如果原假设成立,即药物对小白鼠的反应时间没有影响,那么小白鼠的反应时间应该和正常小白鼠一样服从图1所示的分布.
图1
然而我们通过实验得到的样本数据的均值为1.05,就是图中最左侧虚线的位置.这样问题就来了:在一个服从图1分布的正态总体中随机抽取一个样本,所抽取的样本均值为1.05的可能性有多大?
这个问题容易计算,只要将该均值和分布转化成标准正态分布的值,再查表就可以得出了.
这里我们不妨换一种思维方式来思考:样本均值(1.05)比总体均值(1.20)小了3倍标准差(0.05)的距离,这种事件发生的概率是非常小的,经过计算可得概率不超过0.3%,因此可以认为在这种分布下随机抽取出均值为1.05的样本的几乎是不可能的,这是一种极端的事件.之所以会出现这种极端事件是因为我们前面认为了原假设成立,而在统计推断时我们不希望这种极端事件的出现,因此根据样本数据我们只能拒绝原假设。
通过上述例子可以看出,p值的含义也可以理解为是在原假设成立的条件下,所抽取的样本事件发生的概率。
在上述问题中,当原假设成立时,样本均值大于1.35或小于1.05(图1中阴影部分)的概率经过计算可得不超过0.003,即p<0.003,也就是说如果我们通过实验得到一个样本均值落在阴影区域,这时应该拒绝原假设,否则的话我们所得到的样本数据就成了小概率事件(极端事件).
通常在作推断时我们会事先设定一个门槛(比如显著性水平为0.05),如果p值小于这个门槛,也就是说原假设成立时样本发生的概率太小了,此时我们应做出拒绝原假设的推断。
四、单个正态总体均值的t检验
设是来自
的样本,考虑如下三种关于
的检验问题:
其中是已知常数.这类问题需要对分
已知和未知两种情况进行检验。
已知时采用u检验法,
未知时采用
检验法.
两种方法所选择的检验统计量以及拒绝域的形式如表1.
表1
下面通过例题来说明检验过程.
例1(单侧假设检验)
某种元件的寿命为x(小时),服从正态分布,其中
,
均未知,16只原件的寿命如下,问是否有理由认为元件的平均寿命大于255小时。
159,280,101,212,224,379,179,264,222,362,168,250,149,260,485,170
解:
首先作出假设,原假设记为,备择假设记为
,则
:原件的平均寿命不大于255小时. vs
:原件的平均寿命大于255小时.
然后计算检验统计量
选择显著性水平为0.05,则检验的拒绝域为
其中是该显著性水平下自由度为15的t分布分位数.
最后作出判断,显然检验统计量不属于拒绝域,从而应当接受原假设,即原件的平均寿命不大于255小时。
下面说明采用P值法判断的过程:
对于给定的样本观测值,可计算出检验统计量t的值,记为.由于在
时
,,令
,
此即说明,于是由t分布的反函数的单调性有如下结论:
·当时,
,于是观测值不在拒绝域里,应接受原假设.
·当时,
,于是观测值落在拒绝域里,应拒绝原假设.
在本例中,,p值计算得
由于,故接受原假设.
例2(双侧假设检验)
某厂生产的某种铝材的长度服从正态分布,其均值设定为240cm.现从该厂抽取5件产品,测得其长度为(单位:cm)
239.7 239.6 239 240 239.2,
判断该厂此类铝材的长度是否满足设定要求.
解:
首先作出假设,原假设记为,备择假设记为
,铝材长度记为
,则
:
vs
:
然后计算检验统计量
选择显著性水平为0.05,则检验的拒绝域为
其中是该显著性水平下自由度为4的t分布分位数.
最后作出判断,显然检验统计量属于拒绝域,从而应当拒绝原假设,接受备择假设,即
,此类铝材长度不满足设计要求.
下面用p值再作一次检验:
此处,,p值计算得
由于,故拒绝原假设.
五、两个正态总体均值差的t检验
设是来自正态总体
的样本,
是来自正态总体
的样本,考虑如下三种关于的
检验问题:
这类问题同样需要对分情况进行检验,具体情况见表2.
表2
下面通过例题来说明t检验的检验过程.
例3
某铸造车间为提高铸件的耐磨性而试制了一种镍合金铸件以取代铜合金铸件,为此,从两种铸件中各抽取一个容量分别为8和9的样本,测得其硬度为:
镍合金:76.43 76.21 73.5869.69 65.29 70.83 82.75 72.34,
铜合金:73.66 64.27 69.3471.37 69.77 68.12 67.27 68.07 62.61.
根据专业经验,硬度服从正态分布,且方差保持不变,试在显著性水平为0.05下判断镍合金硬度是否有明显提高.
解:
用X,Y分别表示镍合金和铜合金的硬度,则由假定,,
,要检验的假设是:
.
由于两者方差未知但相等,故采用两样本t检验,计算均值和方差,
,
,
,
,
从而,
查表可知,由于
,故拒绝原假设,可推断镍合金硬度有显著提高.
用p值作检验:此处,因t是服从自由度为15的t分布统计量,则
由于,故拒绝原假设,与上述结论相同.
六、成对数据检验
在对两个总体均值进行比较时,有时数据是成对出现的,比如在通过10个病人服药前后某身体指标的数据来推断药物是否有明显效果时,如果采用上述方法对两个总体的均值进行比较不一定能得到正确的推断,因为这样做没有消除不同病人之间的差别.此时应当将病人前后数据作差,检验前后的差值是否均值为0,若是则原来的两总体无显著性差异.
下面通过例题来比较成对数据检验与两样本t检验方法的差别.
例4
为比较两种谷物种子的优劣,特选取了10块土质不全相同的土地,并将每块土地分为面积相同的两部分,分别种植两种种子,施肥与田间管理完全相同,各小块土地的单位产量如下:
|
土地 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
种子一的单位产量x |
23 |
35 |
29 |
42 |
39 |
29 |
37 |
34 |
35 |
28 |
|
种子二的单位产量y |
30 |
39 |
35 |
40 |
38 |
34 |
36 |
33 |
41 |
31 |
|
差d=x-y |
-7 |
-4 |
-6 |
2 |
1 |
-5 |
1 |
1 |
-6 |
-3 |
假定单位产量服从正态分布,试问:两种子的平均单位产量在显著性水平0.05上有无差异?
解:
首先按照两样本t检验的方法,建立假设:
.
与例3过程类似可求得p=0.2481>0.05,从而不应拒绝原假设,即两种子单位产量无差异.
下面采用配对样本的方法,比较两种子前后产量的差值d均值是否为0,建立假设:
.
即把双样本的检验问题转化为单样本t检验问题,与例2过程类似可求得p=0.04348<0.05,从而应拒绝原假设,即两种子单位产量有显著性差异.
本题中两种方法得出了完全不同的结论,显然后者(成对数据t检验)方法更加合理,因为成对数据的差值已经消除了土质之间的差异,只保留了种子间的差异.
七、正态总体方差的
检验
单个正态总体方差的检验:
设是来自
的样本,考虑如下三种关于
的检验问题:
其中是已知常数.此处通常假定
未知.
两个正态总体方差比的F检验:
是来自正态总体
的样本,
是来自正态总体
的样本,考虑如下三种关于的检验问题:
此处,
均未知.
上述两种正态总体方差的检验方法所采用的统计量和拒绝域见表3.
表3
下面通过例题来说明检验的过程.
例5
某类钢板每块的重量X服从正态分布,评价钢板的一项质量指标是钢板重量的方差不超过0.016,现从某天生产的钢板中随机抽取25块,得其样本方差,问该天生产的钢板重量是否满足要求?
解:
建立假设:
检验统计量
取显著性水平为0.05,查表得,则拒绝域为
由于,从而拒绝原假设,该天生产的钢板不符合要求.
参考文献
[1]《概率论与数理统计教程(第二版)》(茆诗松等著)
[2]可汗学院公开课http://open.163.com/special/Khan/khstatistics.html
本文详细介绍了统计学中的假设检验,包括基本思想、基本步骤、p值的含义,以及单个正态总体均值的t检验、两个正态总体均值差的t检验、成对数据检验和正态总体方差的检验。通过实例展示了如何进行假设检验,帮助读者理解和应用假设检验进行统计推断。
5万+

被折叠的 条评论
为什么被折叠?



