假设检验与两类错误

原创已于 2024-04-07 14:53:34 修改 · 2.1k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#假设检验

于 2024-04-07 14:52:56 首次发布

概率论与统计专栏收录该内容

7 篇文章

订阅专栏

一. 假设检验的定义

1. 什么是假设检验

首先从一个例子引出假设检验的思想

假如一个盒子装了红白球共100个，张三说里面有99个是白球，现在从盒子中任取一球，结果取出的是红球，问张三的说法对吗？

对于这个问题，我们可以采取如下的思路来解决，先假定张三说的对，那么取出红球的概率 $p (红球) = 1/100$ ，也就是一次抽样取出红球是小概率事件，但现在一次抽样抽出红球，与小概率事件实际不符，所以我们认为原来的假定为假，这个盒子中不可能有99个白球。

假设检验先假设总体具有某种特征，例如总体的参数为多少，然后再通过对样本的加工，即构造统计量，推断出假设的结论是否合理。

假设检验依据的是小概率思想，即小概率事件在一次试验中基本上不会发生。

2. 假设检验的步骤

下面以一个案例来说明假设检验的步骤，假设某车间用一台包装机包装葡萄糖。已知每袋糖的净重是一个随机变量，且服从标准差为 0.015 kg 的正态分布。某日随机抽取它所包装的9袋糖，称得净重为（kg）：
$0.497 ， 0.506 ， 0.518 ， 0.524 ， 0.498 ， 0.511 ， 0.520 ， 0.515 ， 0.512$
问每袋糖的净重的均值 $μ\mu$ 是不是0.5kg？

提出原假设与备择假设
本例中原假设和备择假设分别为： $H0:μ=0.5kgH_0: \mu = 0.5 kg$ ， $H1≠0.5kgH_1 \neq0.5kg$
从所研究总体中出抽取一个随机样本
本例中从总体中随机抽取了9个样本，通过经验我们知道样本的均值 $X‾\overline{X}$ 与总体的均值 $μ\mu$ 的差值不会太大，如果相差太大，我们就可以拒绝原假设 $H_0$
构造检验统计量
统计量 $\frac{\overline{X} - \mu}{\delta/\sqrt{n}}$ (其中 $δ\delta$ 为总体标准差， $n$ 为样本数量)服从标准正太分布。
根据显著性水平确定拒绝域临界值

选择一个阈值 $k$ ，根据标准正太分布的性质，当 $Z > k$ 或 $Z < - k$ 时，拒绝原假设 $H_0$ ，当 $- k <= Z <= k$ 时不拒绝原假设 $H_0$ 。

一般阈值的选择是由统计量落在拒绝域的概率确定，它叫做置信水平，用 $α\alpha$ 表示，一般取值为 $5%5\%$ 。
计算检验统计量与临界值进行比较
根据抽样的样本，计算出统计量 $\frac{( 0.497+0.506+0.518 +0.524+0.498+0.511+0.520+0.515+0.512) / 9 - 0.5}{0.015 / 3} = 2.24$
根据 $5%5\%$ 的置信水平计算出两端的阈值分别是 $- 1.96$ 和 $1.96$ ，因为 $Z > 1.96$ ，所以在置信度水平 $5%5\%$ 的情况下，拒绝原假设 $H_0$ ，即总体样本的均值不等于 $0.5 k g$ 。

二. 假设检验的相关概念

1. 假设检验的两类错误

	拒绝 $H_0$	不拒绝 $H_0$
$H_0$ 为真	第一类错误( $α\alpha$ )	正确( $1−α1-\alpha$ )
$H_0$ 为假	正确( $power=1−βpower=1-\beta$ )	第二类错误( $β\beta$ )

第一类错误：原假设为真，但我们却拒绝了它，对应假设检验的显著性水平，一般用 $α\alpha$ 表示。

第二类错误：原假设为假，但我们却没有拒绝它，一般用 $β\beta$ 表示。

功效：当原假设为假，我们正确拒绝原假设的概率，它等于 $\beta$ 。

p值：当原假设为真时，比所得到的样本观察结果更极端的结果出现的概率，如果 $\alpha$ 表明原假设发生的概率很小，但却发生了，根据小概率事件，那么拒绝 $H_0$ ，如果 $\alpha$ 表明原假设发生的概率较大，那么不能拒绝 $H_0$

2. 两类错误的计算

假如有如下假设检验，原假设 $H0:μ=0H_0: \mu = 0$ ，备择假设 $H1:μ=10H_1: \mu = 10$ ，下图所示，该假设检验的置信水平 $α\alpha$ 为红色横线填充的部分，功效 $β\beta$ 为蓝色斜线填充的部分。
在这里插入图片描述

下面用代码演示下两类错误的计算：

from scipy.stats import norm

if __name__ == '__main__':
    alpha = 0.05
    rv = norm(loc=0, scale=10)
    zright = rv.ppf(1 - alpha)

    power = 1 - norm(loc = 10, scale = 10).cdf(zright)
    beta = 1 - power

    print("power = {:.2f}, beta = {:.2f}".format(power,beta))