/*读书笔记,白话统计系列,力图用普通话讲述统计学的基本概念。这里的题目是“决策与风险”,讲的就是两类错误(type I and type II errors)。以下改编至维恩堡《数理统计初级教程》(常学将等译,太原:山西人民出版社,1986),英文名叫Statistics: An Intuitive Approach By George H. Weinberg and John Abraham Schumaker。这书几近绝迹,当回文抄公,以期重见天日。*/
1、假设与决策:场景
原假设:硬币是均匀的。 备择假设:硬币是有偏的。
/*当我们难以拒绝原假设时,只能得到结论:原假设也许是真的,现在不能拒绝它。而当我们能够拒绝它时,结论是:它肯定不真。以下的口语表述不如这里明确(和拗口)的,以这里的表述为准。*/
试验:在平坦的地方,独立地投掷硬币100次,每次投掷的结果都做记录。最后,正反面出现的次数分别是:
正面:55 反面:45
提问:根据你所看到的结果,判断一下,你接受还是拒绝”硬币是均匀的“这一假设?
-R博士回答:“拒绝这个假设,因为所得到的正面数超过了反面数的允许界限,这表明硬币是有偏的。”
-A博士回答:“接受硬币是均匀的这一假设。我们不能非难硬币掷出55个正面,45个反面,一个均匀的硬币也能掷出这个比率。”
-R博士:“那什么样的结果才能使你拒绝那假设呢?我的意思是,正面数和反面数应该有多大的差异,才能使你认为硬币是有偏的?“
-A博士:“至少90个正面对10个反面,或者90个反面对10个正面。如果我们的决策是拒绝一个掷出55对45这个比率,或者更高一些比率的硬币,那么这个决策将使我们把许多由于偶然掷出上述比率的均匀硬币都宣判为有偏的。你的看法使得非难一个均匀的硬币太容易了。”
-R博士:“太过分了!至少要掷出90对10的比率你才说硬币是有偏的。你过度的轻信,将几乎不可能拒绝关于硬币是均匀的假设。诚然,你很少拒绝一个均匀的硬币,但对一个有偏的硬币,你也很难拒绝。”
上面的对话应该让大伙体会到了一些假设检验的意思。可以总结一下,对照下面的表格,思路会清晰一些:
判定 \ 假设 | 真 | 假 |
拒绝 | 第I类错误α | 没有错误1-β |
接受 | 没有错误 | 第II类错误β |
A博士(Accept,接受)的法则是,除非试验得到的比率超过90比10,否则就接受硬币是均匀的这一假设。A博士厌恶犯否定均匀硬币的错误(”弃真“,第I类错误),他的法则使得犯这种错误的概率最小。由于均匀的硬币几乎不会出现超过90比10的比率,他很少冒把一个均匀的硬币说成有偏的风险。然而,他付出的代价是,大大降低了试验的检测能力(power,见下),他的法则使得拒绝假设是极端困难的。大量有偏的硬币也不会出现如90对10这样大的差异,因此它们也会被当成均匀的硬币而没有被检测出来。可以说,A博士对接受假设有偏爱,当假设为真时,他很少犯拒绝它的错误;但当假设不真时,他会常犯接受它的错误。
R博士(Reject,拒绝)的法则是,除非比率低于55对45,否则就不能接受硬币是均匀的这一假设,也即,仅当硬币的正反面数差异在一个狭窄的界限之内,她才接受假设。她把试验看成类似9.11时美国进行的安全检查(”宁可错杀三千,不可错过一个“),重要的是检测出有偏的硬币。R博士的法则在接受错误的假设方面所冒的风险极小(”取伪“,第II类错误),代价是增加了把一个均匀硬币判成有偏的风险。可以说,R博士对拒绝假设有偏爱,当假设碰巧不真时,她很少犯接受它的错误;但当假设碰巧为真时,她常犯拒绝它的错误。
2-1、决策与风险(用均匀的硬币做试验,第I类错误)
一次试验,不足以判断两位博士谁的法则是正确的。现在,用一个均匀的硬币(我们知道,两位博士不知道,这里的原假设是硬币是均匀的),把上面提到的投硬币试验,重复100次(每个试验由100次投掷构成),那么,记录下的正面数X,将构成一个二项分布,X~B(n,p),其中,n=100,p=0.5。根据某个中心极限定理,正态分布是二项分布的极限分布,上面的二项分布可以由均值为np=50,方差为np(1-p)=25的正态分布来近似。又因为二项分布只取整数值,在近似它的正态曲线下会出现很多空隙,为了校正这种情况,可以把整数的两头各扩大0.5个单位,以这个区间表示正态曲线下的那个数。
对R博士来说,仅当掷出的正面数多于45,少于55时,她才接受假设。在正态曲线下,这两个端点可以写成45.5和54.5。
——|-/-|———
45.5 54.5
标准化,(45.5-50)/5=-0.9,(54.5-50)/5=0.9,根据标准正态表,可知45.5-54.5这个接受区域包括了总面积的63%。也即,投掷均匀硬币所产生的样本中,有63%的样本,其正面数落在接受区域,相应地,其正面数落在R博士提出的否定域的概率为37%。也就是说,当硬币是均匀的时,R博士犯第I类错误的概率为37%。对A博士来说,他的接受区域在10-90之间,他几乎不会犯第I类错误。
2-2、决策与风险(用有偏的硬币做试验,第II类错误,功效)
现在取一个有偏的硬币(我们知道,两位博士不知道,这里的原假设还是硬币是均匀的),即投出正面的概率不等于二分之一(注意,说硬币是有偏的,并不必对p的值作出指定,因为硬币有偏可以有无限多种方式)。为了评价两位博士的法则在拒绝假设方面有多大的成功,我们需要对硬币指定一个偏度,比如是掷出正面的概率是0.6,做上面同样的100次试验(每次试验有100次投掷),近似成一个正态分布,均值np=60,方差是np(1-p)=24。
对A博士来说,他的判定法则是,只要得到的正面数在10到90之间就接受假设。显然,即使一个有偏的硬币所得到的正面数,也位于A博士的接受区域里。即,当硬币出现正面的概率为0.6时,A博士还是经常要接受均匀硬币的假设,他几乎总要犯第II类错误。
对R博士来说,她的判定法则是,仅当所得到的正面数位于45-55之间时,才接受假设。可以算出45.5-54.5的面积占整个正态曲线区域的13%,也就是说,在使用偏度为0.6的硬币做试验时,R博士错误地接受了硬币是均匀的这一假设的概率是13%(第II类错误),相应地,她正确地拒绝均匀硬币假设的概率为87%。
在这里描述的备择假设(在硬币是有偏的,偏度是0.6)下,A博士实际上没有能力检测出原假设(硬币是均匀)的错误,而R博士则有相当大的能力实现(87%).这里1-β=87%也被定义为功效(power),即,当特别的原假设出现时,正确地拒绝原假设的概率。
3、假设检验
以上不厌其烦地强调了犯两类错误之间的tradeoff。在我们的假设检验中,采取的是类似A博士的法则,尽量减少犯第I类错误的概率(尽量不要”弃真“),尽管这将提高犯第II类错误(”取伪“)的机会。这是一个保守的策略,大概是因为犯第I类错误的风险更大,类似于法庭上”无罪推定“的法则:
原假设:被告无罪。 备择假设:被告有罪
除非有特别的充分的证据,否则就认为被告无罪。这里,把清白的被告处以极刑(第I类错误)的代价是非常大的,而释放有罪的被告(第II类错误),只是增加了一点司法成本。
P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。
The P-value is the probability of obtaining a result at least as extreme as the one that was actually observed, given that the null hypothesis is true. (来自:wikimedia)
以下用简单通俗的方式解释一下,“什么是P值,什么是极端”。
譬如:硬币试验,那是一次二项试验,每次试验投100次,记下出现正面的次数,比如,如果
每次出现的正面数都是50,你就有把握认为这是一枚均匀的硬币;
正面数等于45或者等于55,你就有一点点的怀疑它是均匀的;
正面数等于30或者等于70,比较怀疑;
正面数等于10或者等于90,非常怀疑。
如上,正面数和反面数的差异越大,你就越有把握认为硬币不是均匀的(拒绝原假设)。重复一下P值的定义,“P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率”,把这个定义套入上述硬币试验的场景中,比如你观察到“正面数是10或者90,正反面次数差异是80”:
如果原假设为真(硬币是均匀的),P值就是你投100次,所得的正反面数差异大于80的概率。
如果这个P值很大,表明,每次投100次均匀的硬币,经常有正反面差异大于80的情形出现。如果这个P值很小,表明,每次投100次均匀的硬币,你很难看到正反面的差异会超过80。
以前说过,10-90是A博士的接受区域。如果一枚硬币投出的正反面次数,差异大于80,——这真是一个“极端”的情形,连保守的A博士看了都摇摇头,不能接受原假设,只好认为原假设不对,硬币是有偏的。这里的逻辑是:
在假定原假设为真的情况下,出现所看到的偏差(正反面差异为80),是这么地不可能(P值很小),以至于我们不再继续相信原假设。
用大白话叙述一遍统计推断中最基础的东西(假设检验、P值、……),算是把这段时间的阅读和思考做个梳理(东西不难,思考侧重在如何表述和展示)。这次打算用一种“迂回的”表达方式,比如,本文从我们的日常逻辑推理开始说起。
0.普通逻辑
复习一下普通逻辑的基本思路。假设以下陈述为真:
你打了某种疫苗P,就不会得某种流行病Q。
我们把这个先决条件表述如下:
如果P 则非Q
其中,
P表示打了疫苗P,
Q表示得流行病Q
或者,更形式化一点:
if P then NOT Q
然后,如果观察到你得了流行病Q,那么就可以推出你没有打疫苗P——这个推断只不过是上述前提条件的
逆反命题
而已。我们把以上推理过程表述如下:
if P then NOT Q (先决条件)
Q (前提)
———————–
then NOT P (结论)
还有,如果你没有得流行病Q,就能推断出你打了疫苗P吗?显然不能。打疫苗P是不得流行病Q的充分条件,但非必要条件:你没有得流行病Q,可能是因为打了疫苗P,也可以是因为其他任何原因。即,if P then NOT Q,不能够推出if NOT Q then P。
到此为止没有任何令人惊奇的地方。下面将表明,假设检验背后的统计推断规则也只不过是我们以上日常逻辑推理的一个衍生而已。这只需要思维的一次小小的“跳跃”。
1.假设检验
在统计推断中,我们不说“你打了疫苗P,就不会得流行病Q”,而是说,比如,“你打了疫苗P,就有95%的把握不会得流行病Q”,即if P then probably NOT Q。把上面的逻辑推理规则改写成统计推断规则:
if P then probably NOT Q (先决条件)
Q (前提)
———————–
then probably NOT P (结论)
回到以前“万能”的硬币实验,我们做实验来考察一枚硬币是不是均匀的。改写成现在我们熟悉的形式:
P:硬币是均匀的。
Q:在100次投掷中,得到90次正面,10次反面。
我们说,如果是一个均匀的硬币,就不太可能发生这样的情形:投100次,出现90次正面,10次反面(
if P then probably NOT Q
)。现在如果在100次投掷实验中,观察到出现90次正面,10次反面(Q),那就可以有把握地说,这个硬币不是均匀的(
NOT
P)。这个推理可以写成与上面一致的统计推断的形式,其中,P是原假设H0,NOT P是备择假设Ha:
如果原假设为真,即硬币是均匀的,就不太可能发生这样极端的事情,比如:在100次投掷实验中,观察到出现90次正面,10次反面(Q)。如果真的观察到这样极端的事情,你就有把握认为硬币不是均匀的,即拒绝原假设(P),接受备择假设(NOT P)。
另外,如果在100次投掷实验中,观察到60个正面,40个反面(NOT Q)。这时你就不好下结论了,因为一个均匀的硬币可能投出这样的结果,一个有偏的硬币也可能投出这样的结果。最后,你只能说,如果实验结果是这样的,那就没有把握拒绝原假设。这枚硬币是否有偏,需要更多的证据来证明(这通常意味着更多的实验,比如,再投1000次)。
总结一下。在搜集数据之前,我们把想证明的结论写成备择假设,把想拒绝的结论写成原假设。之所以写成这个形式,因为从上面不厌其烦的讨论中得知,这是方便逻辑/统计推断的形式:当我们难以拒绝原假设时,只能得到结论,原假设也许是真的,现在还不能拒绝它;而当我们能够拒绝原假设时,结论是:它就很有把握是不真的。注意,在看到数据之前,我们不知道自己想证明的结论是否能够被证据所支持。
在确定假设检验的形式的同时,我们对之前一直随意说的“把握”、“可能”也做一个限定,即指定一个显著性水平α(significance level),也叫犯第一类错误的概率(type I error,在上面的硬币实验中,就是否定一个均匀硬币的错误,也叫“弃真”错误)。
根据某些保守或稳健的原则(比如,我们认为,把一个无辜的人判决为有罪,比放掉一个有罪的人,后果更为严重),我们要尽量把犯“弃真”错误的概率控制在一个很小的水平里。通常α=0.05,这时候就是说,如果拒绝了原假设,你就有95%的把握说原假设是不真的。这里,95%(=1-α)就是置信水平(confidence level)。
又,放掉一个有罪的人,即把一个有罪的人判为无罪,这犯的是第二类错误β(type II error,在硬币实验中,就是把一个有偏的硬币当成均匀硬币的错误,也叫“取伪”错误)。关于第一类和第二类错误之间的权衡取舍(trade off),详见《决策与风险(统计推断与检验)》。在我们的假设检验里,我们认为犯一类错误的后果比犯第二类错误的后果更为严重。
需要注意的是,在这里,我强调的是先提出需要检验的假设,然后再搜集收据。这是统计推断的原则之一。如果看到了数据之后再提出假设,你几乎可以得到所有你想要的结果,这是不好的机会主义的倾向。强调这些,是因为在学校里,我们大多是看了别人搜集好的数据之后再做统计练习。
事先确定好你想拒绝/证明的假设,在看到数据之前,你不知道结果如何。
2.P值(P Value)
上面提到“极端”事件,比如,在100次硬币投掷实验中,观察到出现90次正面,10次反面(Q)。怎么样的事件才是“极端的”?简单地说,一个事件很极端,那么少比它本身“更极端”的事件就非常少(比如,只有“91次正面,9次反面”、“91次反面,9次正面”等情况才比它更极端)。
但这个Q只是从一次实验中得出的。我们可以重复做这个实验,比如100次,每次都投掷100次,记录下的正面数X,它构成一个二项分布,X~B(n,p),其中,n=100,p=0.5。根据某个中心极限定理,正态分布是二项分布的极限分布,上面的二项分布可以由均值为np=50,方差为np(1-p)=25的正态分布来近似。我们在这个近似的正态分布的两端来考察所谓“更极端”的事件,那就是正面数大于90或者小于10。
“P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率”。如果P值很小,就表明,在原假设为真的情况下出现的那个分布里面,只有很小的部分,比出现的这个事件(比如,Q)更为极端。没多少事件比Q更极端,那就很有把握说原假设不对了。
在上述近似的正态分布中,P值就等于X>90 或 X<10的概率值(记做,P{X>90 or X<10})。根据对称性,这个概率值等于2*P{X<10}=1.2442E-15。
上面我们的确求出了一个非常小的P值,但如何不含糊地确定它就是很“极端”呢? 事先确定的显著性水平α,本身就是一个判定法则。只要P值小于显著性水平α,我们就认为,在认为原假设为真的情况下出现的事件Q,是如此地极端,以至于我们不再相信原假设本身。一句话,我们的判定法则是:
P值小于显著性水平α,拒绝原假设。
3.一个手算示例
用一个双侧的单样本T检验做例子。假设我们想知道,螃蟹的平均温度,跟空气的温度(24.3)有没有统计差别(α=0.05)。事先确定的假设检验的形式表达如下:
零假设(H0): μ=24.3°C
备择假设(Ha): μ≠24.3°C
以下是25只螃蟹在温度为24.3°C下的体温(单位:°C):
25.8 24.6 26.1 22.9 25.1
27.3 24 24.5 23.9 26.2
24.3 24.6 23.3 25.5 28.1
24.8 23.5 26.3 25.4 25.5
23.9 27 24.8 22.9 25.4
一些基本的算术结果:
样本均值:
样本量:n=25
样本方差:=1.8
样本均值的标准误差:
这里T检验的思路如下:
- 我们先假设H0为真,即认为螃蟹的平均温度跟空气温度没有差异(P), μ=24.3°C。有一个极端事件Q,如果原假设H0成立,Q就不成立(if H0 then probably NOT Q);但如果在原假设为真的情况下,出现了这么一个Q,那我们就有把握拒绝原假设。
- 样本均值:
。 - 这个样本均值只是一个估计值。它只是从总体的一个随机样本中得到的(样本是上述25只螃蟹)。我们不知道这次实验结果是不是“极端”事件。而判断一个事件是不是极端事件,根据第二节的讨论,我们可以重复做上述实验,比如100次,每次都抓25只螃蟹,都在空气温度24.3的状态下测量其体温,然后也各自求出一个样本均值来。
- 容易得出,这种实验出来样本均值,辅以适当的数学形式,就服从一个自由度为24(=25-1)的t分布,即
,在这个自由度为24的t分布下,有一个对应的t值,t=25.03-24.3/0.27=2.704。现在我们可以在整个分布里考察这个t值。在这个自由度为24的t分布里,我们看 t=2.704是不是一个“极端”事件Q。根据对称性,比Q更极端的是那些大于2.704或者小于-2.704的点。
从上图可以看到,在这个t分布里,比t=2.704更“极端”的点占整个分布的0.0124。这个0.0124就是我们要求的P值。这个P值小于我们事先选定的显著性水平α=0.05,因此我们可以拒绝原假设,认为这批螃蟹的平均体温不等于空气温度。
这个双侧P值可以手算如下:
在SAS里,P=2*(1-probt(t,df))=2*(1-probt(2.704,24))=0.012392
在R里, P=2*(1-pt(t,df))=2*(1-pt(2.704,24))=0.012392
http://www.plob.org/2012/09/06/3396.html