特征选择-相关系数法F检验

最新推荐文章于 2025-01-02 17:58:24 发布

转载最新推荐文章于 2025-01-02 17:58:24 发布 · 1.2w 阅读

文章标签：

#F-test #相关系数 #P值 #F检验

机器学习专栏收录该内容

77 篇文章

订阅专栏

本文介绍了F检验的基本概念及计算方法，通过一个具体的医疗案例详细解释了如何进行假设检验，包括确定原假设与备择假设、选择检验统计量、确定拒绝域以及求取p值等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

F检验（F-test），最常用的别名叫做联合假设检验（英语：joint hypotheses test），此外也称方差比率检验、方差齐性检验。它是一种在原假设（null hypothesis, H0）之下，统计值服从F-分布的检验。

F检验的计算公式：

p值的计算：

p值的计算是与假设检验有着密不可分的关系，p值为结果可信水平的一个递减指标，p值越大，我们越不能以为样本中变量的关联是总体中各变量关联的可靠指标。p值是将察看结果觉得有效即具有总体代表性的犯错概率。如p=0.05提醒样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联，我们反复相似试验，会发现约20个试验中有一个试验，我们所研讨的变量关联将等于或强于我们的实验结果。（这并不是说如果变量间存在关联，我们可得到5%或95%次数的雷同结果，当总体中的变量存在关联，反复钻研和发明关联的可能性与设计的统计学效率有关。）在许多钻研范畴，0.05的p值通常被以为是可接收过错的边界程度。

让我们用一个统计学的例子来描述p值的求取过程：

例如：假设某制药公司断言，鼾克能够在2周内治愈90%的患者。恰好一位医生在给患者开治疗药物时随机抽取了15名患者的治疗情况，统计他们是否被治愈，结果如下：

是否治愈	是	否
频数	11	4

根据抽样结果，这名医生对该药物的治疗效果表示失望，因此她想要否决该制药公司的断言。

1.确定原假设和备择假设

那么她如果想要拒绝这个推论就需要检验鼻鼾药物是否至少能治愈90%的患者，因此原假设为：p=90%.即（H0：p=0.9）

而与原假设对立的结论被统计学称为备择假设，一般用H1表示。因此有医生认为制药公司对疗效的判断不准确，她认为治愈率不会达到90%，低于90%的概率比较大。此时我们能够确定备择假设为H1：p<0.9.

2.选择检验统计量

由于我们需要检验是否有充足的证据反驳原假设。办法是：首先假设H0为真，然后寻找不利于H0的证据。在针对上述案例中，我们假设治愈概率为0.9，在X个样本人数中随机抽取15名患者的治疗情况，此时的X就称为检验统计量。因此检验统计量将服从二项分布，即：X~B（15,0.9）。而我们想要拒绝原假设又怎么办呢，这就需要根据样本结果，然后计算发生这个结果的概率—此时就需要求拒绝域来实现这一目的了。

3.确定拒绝域

假设检验的拒绝域是一组数值，这组数值给出了反驳原假设的最极端的证据。再让我们回到医生的样本中，以便了解拒绝域的使用方法。如果治愈人数为90%或90%以上，这就与制药公司的断言吻合了。随着治疗人数的下降，制药公司的断言为真的可能性越来越小。

下面是概率分布：

1）何时能够拒绝制药公司的断言呢？

样本中得到成功治愈的患者人数越少，就可以用于反驳制药公司断言的证据就越有力。问题是：这些证据的强度达到多大时，我们能够坚决地拒绝原假设？

我们需要通过某种方法指出何时能够合理的拒绝原假设---指定一个拒绝域即可实现这一目的。如果鼻鼾患者的治愈人数位于拒绝域以内，我们就说有足够的证据可以反驳原假设；如果鼻鼾患者的治愈人数位于拒绝域以外，我们就承认没有足够的证据可以反驳原假设，并接受制药公司的断言。我们把拒绝域的分界点称为“c”----临界值。