0. Outlines
1. 基本概念
- 假设,检验统计量,拒绝域;
- 功效函数;
- 两类错误,检验的水平;
- 假设检验的优良性准则(一致最优检验);
- p-值;
2. 重要的参数检验
连续型随机变量:
- 正态总体均值的检验;
- 两正态总体均值差的检验;
- 正态总体方差的检验(一个总体&两个总体);
- 指数分布参数的检验;
离散型随机变量
- 二项分布参数p的检验(符号检验);
- 泊松分布参数
λ 的检验;
大样本检验
贝叶斯方法
3. 分布的检验(拟合优度检验)
1. 基本概念
1.1 假设,检验,检验统计量,拒绝域;
- 假设:分为原假设H0:θ∈Θ0和对立假设Ha:θ∈Θa;原假设为“原来的”保守假设;
检验统计量:检验一个假设时所用的统计量T(X˜),其分布函数为F;
- 最直观的检验统计量可以从估计量得到;
- 似然比统计量等也是常用的检验统计量;
拒绝域:拒绝原假设的那些样本
X˜=(X1,...,Xn) 所组成的区域R={X˜|T(X˜)≥C(α)}称为拒绝域;- α是检验水平,之后会提到;
- C(α)称为检验的临界值(critical value),显然是检验水平的函数,其选取非常重要;
- 接受域A是拒绝域
R 关于样本空间Ω的补集;
检验: 检验就是一个判断准则,如:“当T(X˜)≥C(α)时在检验水平α下拒绝原假设,否则不能拒绝原假设”;
- T(X˜)≥C(α)即为拒绝域;
- 检验的组成元素:检验统计量T(X˜),检验水平α,拒绝域的定义;
- 检验决定了功效函数;
p-值: 对一个检验统计量T(X˜),当T越大时,
H1 越有可能是真的,那么对任意样本点x,定义
p(x)=supθ∈Θ0Pθ(W(X)≥W(x))
为p-值;- p-值不在Neyman-Pearson理论里;
这里θ可以是标量,也可以是向量;
1.2 功效函数([@casella2002statistical2],p373-p400)
(Def): 未知参数θ,样本X˜=(X1,...,Xn),原假设H0,对一个检验Φ,其功效函数为:
Remarks:
- 同一个原假设有很多检验方法,对各个检验方法的评估、比较就取决于检验的功效函数;
- 功效函数是样本空间Ω→[0,1]上的函数;
- 拒绝域R与检验水平、检验统计量的分布有关;
1.3 两类错误 检验的水平
两类错误:
- 一类错误:拒真
α1 ; - 二类错误:取伪α2;
功效函数为:
βΦ(θ)={α1(θ)1−α2(θ)if θ∈Θ0if θ∈ΘaRemarks:
1−α2(θ)称为该检验的功效(power);检验的水平
(Def): Φ是原假设H0的一个检验,其功效函数为βΦ(θ),有常数α,s.t.对任意θ∈Θ0,有:
βΦ(θ)≤α,
则称Φ是一个水平为α的检验,α称为检验水平。
1.4 假设检验的优良性准则(一致最优检验)
(Def): (一致最优检验)
设Φ是一个水平为α的检验,若对任何其他一个水平为α的检验g,对任意
θ∈Θa 有:
βΦ(θ)≥βg(θ),
则称Φ是检验问题H0:H1的一个水平α的一致最优检验。Remarks:
- 如上限制第一类错误概率的原则及一致最优检验这些假设检验理论由Nayman & Pearson提出,称为“Nayman-Pearson理论”;
- 之后还会有p-value 的理论提出;
- 从实际来看,一致最优检验往往是非常难找的,但是这种检验方法比较的思想确实一致的;
- Statistical inference 书上有其它的hypothesis testing evaluation 方法,可以细看;
2. 重要的参数检验
2.1 连续型随机变量:
- 正态总体均值的检验;
- 两正态总体均值差的检验;
- 正态总体方差的检验(一个总体&两个总体);
- 指数分布参数的检验;
Remarks: 这里以“正态总体均值的检验”为例,介绍假设,检验的设定,检验统计量的选取,功效函数的推导,确定名义水平后拒绝域的临界值的计算,考虑检验分辨率的情形下样本量n的选取问题。
正态总体均值的检验
X1,X2,⋯,Xn,⋯∼i.i.d.N(θ,σ2) ,其中方差σ2已知,假设检验问题为:
H0:θ≤θ0↔Ha:θ>θ0.- 初步提出检验ϕ: 当X¯≤C时接受H0,否则拒绝H0(所谓初步是指还带有未知量,如这里的C);
- 检验水平
α , 已知X¯−θσ/n√∼N(0,1); - 检验ϕ的功效函数:
βϕ(θ)=Pθ(X¯>C)=1−Pθ(X¯−θσ/n−−√≤C−θσ/n−−√);
- 功效函数关于θ单调递增;
- 因此要达到水平α,只需要βϕ(θ0)=α即可,解出临界值C(α)=θ0+σ/n−−√μα;
- 此处μα为标准正态分布的上α分位数,即Φ(μα)=1−α;
- 检验统计量为T=X¯−θ0σ/n√,那么T∼H0N(0,1);
综上,更新水平为α的检验phi与对应功效函数如下:
- 检验ϕ′: 当X¯≤θ0+σ/n−−√μα时,接受H0,否则拒绝Ha;
- 功效函数:βϕ′(θ)=1−Φ(n√(θ0−θ)σ+μα);
- Φ(x)为标准正态分布的c.d.f;
若对检验功效β还有要求时,(比如提要求:选定θ1>θ0,要求当任意θ>θ1,βϕ′(θ)≥1−β),那么所需最小样本量n可以求解如下,这在试验设计时比较重要:
- 因为功效函数是单增的,因此求解
βϕ′(θ1)≤1−β 即可,可得样本量n≥(μa+μb)2σ2(θ1−θ0)2; - 这是在达到一定分辨率(|θ1−θ0|)的条件下控制第二类错误;
- 但是,对很多检验来说,这个n都是求不出来的;
- 因为功效函数是单增的,因此求解
因为总体分布为离散分布,因此不能恰好得到检验水平α的拒绝域,这时有两种解决方法:
- 用随机化检验的方法达到预定的检验水平α;
- 稍微调整检验水平α到α1,使得新水平α1能够恰好达到;
- 一般来说第二种更加常用并好理解;
在非参数检验问题中有一类符号检验问题,即将配对数据处理成符号数据,进一步提出新的假设检验H0:p=12↔Ha:p≠12,这种处理方式更加稳健;对总体分布没有特殊假定;
- 检验统计量的确切分布不易求出,那么可依据其极限分布来确定临界值C(α);
- 由于是近似的,因此实际水平与名义水平α 有一定差距,是我们通常要讨论的问题;
- 大样本方法在科研中是常用的,需要熟悉;
- 贝叶斯方法是与Neyman-Pearson理论完全不同的方法,没有“检验水平”这一概念;
- 不需要寻找统计量,求统计量的确切分布;
- 贝叶斯方法有时可以用于一些特殊的假设检验问题,如H0:a≤θ≤b,Ha:θ<a或θ>b;这类问题对Neyman-Pearson理论来说是棘手的;
- 假设: H0:P(X=ai)=pi,i=1,...,k;
- 理论-经验分布表:
- 相较3.1 需要多一步理论分布的参数估计步骤,与此同时统计量的零分布也有所不同;
- 设组数有k组,未知参数个数为
r ,(pi=pi(θ1,...θr),i=1,...,k),那么先用极大似然估计法估计出未知参数θ^i,i=1,...,r,进而求得p^i=pi(θ^1,...θ^r);
- 似然函数易由多项分布得到;
- 将估计值带入统计量的表达式:Z=∑ki=1(np^i−νk)2np^i;
- 检验统计量的零分布:(Fisher改正了Pearson的错误)
(Thm):H0下,当n→∞时,Z→χ2k−1−r; - 在列联表中有重要应用,如独立性检验,齐一性检验;
- 检验两个属性A,B独立性,其中A,B分别有a,b种水平;
- H0:A,B独立;
- 经计算,χ2统计量Z=∑ai=1∑bj=1(nnij−ni.n.j)2/(nni.n.j);
- 在零分布下检验统计量服从自由度为(a−1)(b−1)的χ2-分布;
- 若一般分布为连续型分布,那么就化连续为离散;
- 若一般分布为取值个数无限的离散分布,那么就行并组操作;
- 在分组时,组数k不应小于参数个数
r +2; - 在检验前同样要先进行参数估计,可以类似之前的用MLE方法,若MLE难以求得,可以选取较为简单的估计量,此时统计量近似服从χ2-分布;
2.2 离散型随机变量
2.2.1 二项分布参数
p 的检验(符号检验);Remarks:
2.2.2 泊松分布参数λ的检验;
Remarks:
若样本为(X1,...,Xn),令X=∑ni=1Xi,那么X仍为泊松分布,只是新参数为nλ .2.3 大样本检验
2.4 贝叶斯方法
在求得参数θ的后验概率分布h(θ|X˜)后,分别计算条件概率P(H0|X˜)和P(Ha|X˜);
若前者大于后者,那么就接受H0,否则就拒绝原假设。Remarks:
3. 分布的检验(拟合优度检验)
拟合优度检验就是检验一批数据是否与某种理论分布符合;
3.1 理论分布已知且只取有限个值
类别 a1 … ak 理论值 np1 … npk 观测值 ν1 … νk * Pearson 拟合优度χ2统计量:
Z=∑ki=1(npi−νk)2npi
* 统计量分布(由Pearson 证明)
(Thm) 如果原假设H0成立,那么n→∞时,Z→χ2k−1;
* 检验:ϕ: 当Z≤χ2k−1(α)时,在水平α下接受原假设H0,否则拒绝原假设;
* 拟合优度(其实就是p-值):p(Z0)=P(Z≥Z0|H0);3.2 理论分布只取有限个值但不完全已知(多项分布)
在列联表中有重要应用
独立性检验:A,B两个属性均是随机选取的,即采样以后才知道;
齐一性检验:其中一个属性在抽样时是已知的,这种情况理论证明以上分布仍然适用。3.3 理论分布为一般分布的情形
References: