特征选择-相关系数法F检验

本文介绍了F检验的基本概念及计算方法,通过一个具体的医疗案例详细解释了如何进行假设检验,包括确定原假设与备择假设、选择检验统计量、确定拒绝域以及求取p值等步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

F检验(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在原假设(null hypothesis, H0)之下,统计值服从F-分布的检验。

 

F检验的计算公式:

 

p值的计算:

       p值的计算是与假设检验有着密不可分的关系,p值为结果可信水平的一个递减指标,p值越大,我们越不能以为样本中变量的关联是总体中各变量关联的可靠指标。p值是将察看结果觉得有效即具有总体代表性的犯错概率。如p=0.05提醒样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们反复相似试验,会发现约20个试验中有一个试验,我们所研讨的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的雷同结果,当总体中的变量存在关联,反复钻研和发明关联的可能性与设计的统计学效率有关。)在许多钻研范畴,0.05的p值通常被以为是可接收过错的边界程度。

让我们用一个统计学的例子来描述p值的求取过程:

例如:假设某制药公司断言,鼾克能够在2周内治愈90%的患者。恰好一位医生在给患者开治疗药物时随机抽取了15名患者的治疗情况,统计他们是否被治愈,结果如下:

是否治愈

频数

11

4

根据抽样结果,这名医生对该药物的治疗效果表示失望,因此她想要否决该制药公司的断言。

1.确定原假设和备择假设

      那么她如果想要拒绝这个推论就需要检验鼻鼾药物是否至少能治愈90%的患者,因此原假设为:p=90%.即(H0:p=0.9)

而与原假设对立的结论被统计学称为备择假设,一般用H1表示。因此有医生认为制药公司对疗效的判断不准确,她认为治愈率不会达到90%,低于90%的概率比较大。此时我们能够确定备择假设为H1:p<0.9.

2.选择检验统计量

       由于我们需要检验是否有充足的证据反驳原假设。办法是:首先假设H0为真,然后寻找不利于H0的证据。在针对上述案例中,我们假设治愈概率为0.9,在X个样本人数中随机抽取15名患者的治疗情况,此时的X就称为检验统计量。因此检验统计量将服从二项分布,即:X~B(15,0.9)。而我们想要拒绝原假设又怎么办呢,这就需要根据样本结果,然后计算发生这个结果的概率—此时就需要求拒绝域来实现这一目的了。

3.确定拒绝域

      假设检验的拒绝域是一组数值,这组数值给出了反驳原假设的最极端的证据。再让我们回到医生的样本中,以便了解拒绝域的使用方法。如果治愈人数为90%或90%以上,这就与制药公司的断言吻合了。随着治疗人数的下降,制药公司的断言为真的可能性越来越小。

     下面是概率分布:

 

1)何时能够拒绝制药公司的断言呢?

     样本中得到成功治愈的患者人数越少,就可以用于反驳制药公司断言的证据就越有力。问题是:这些证据的强度达到多大时,我们能够坚决地拒绝原假设?

我们需要通过某种方法指出何时能够合理的拒绝原假设---指定一个拒绝域即可实现这一目的。如果鼻鼾患者的治愈人数位于拒绝域以内,我们就说有足够的证据可以反驳原假设;如果鼻鼾患者的治愈人数位于拒绝域以外,我们就承认没有足够的证据可以反驳原假设,并接受制药公司的断言。我们把拒绝域的分界点称为“c”----临界值。

 

2)如何选择临界值

     提到临界值,就不得不谈下显著性水平。这也是求取拒绝域必须先定下的参数,检验的显著性水平所量度的是一种愿望,即:希望在样本的结果的不可能程度达到多大时,就拒绝原假设H1.像置信区间的置信水平一样,显著性水平以百分数表示。

假设我们想以5%为显著性水平检验只要公式的断言,这说明我们选取的拒绝域应使得“鼻鼾患者的治愈人数小于c”的概率小于0.05,即概率分布最低端的5%部分。

 

显著性水平通常用希腊字母α表示。α越小,为了拒绝H0,样本结果需要达到的不可能程度越高。

所以上述过程的公式化表达为:

 

一般情况下α由人为确定,概率的值也可以通过查表的方式获取。

补充小知识(单边检验,双边检验):

      两者的区别主要看X<c之间的符号,不等于时候为双边检验,文字表达有点啰嗦,直接上图吧!

单边检验:

 

双边检测:

 

4.求取p值

 

      P值的求取取决于拒绝域和检验统计量。对于鼾克检验来说,治愈人数为11人,而拒绝域位于分布的最低端,于是P值为(P(X<=11)),其中X为样本中的治愈人数的分布。

由于显著水平为5%,说明如果P(X<=11)小于0.05,则落在拒绝域中,这时我们可以拒绝原假设。

要计算P的值,这时我们要回想起前面我们谈到了X是服从B(15,0.9)的二项分布的,因此我们的P(X<=11)的计算结果就为:

好了,最终我们求得p值为0.0555.此时的样本不在拒绝域内,说明制药厂的断言还不足以被推翻。

以上内容转自https://blog.youkuaiyun.com/zijinmu69/article/details/80564566

在机器学习特征选择中

常用来计算各个特征属性对于目标值对相关系数以及相关系数对P值,然后选取大于阈值对特征属性。

<think>好的,我现在需要回答用户关于相关系数统计检验的问题,特别是实现方法。首先,用户提到了斯皮尔曼相关系数,参考了站内的资料,所以我应该结合这个信息来展开。 首先,我应该明确相关系数的类型,常见的有皮尔逊和斯皮尔曼。用户的问题可能涉及这两种,但根据引用,斯皮尔曼适用于非正态或等级数据,而皮尔逊适用于正态连续数据。接下来,统计检验的步骤一般包括假设建立、计算统计量、确定分布、计算p等。 然后,针对不同的相关系数检验方法不同。例如,皮尔逊的t检验和斯皮尔曼的t或查表法。我需要详细说明这两种方法的检验步骤,包括公式和自由度计算。 关于实现部分,用户可能想知道如何在软件中操作,比如Python。我需要提供示例代码,使用scipy库中的spearmanr和pearsonr函数,并解释输出结果。同时,要提到数据正态性检验的重要性,比如Shapiro-Wilk测试,以及如何根据结果选择相关系数类型。 还要注意用户可能混淆不同检验的应用场景,需要明确指出何时使用哪种方法。例如,数据是否满足正态分布决定使用皮尔逊还是斯皮尔曼。此外,显著性水平的理解也很重要,比如p小于0.05表示拒绝原假设。 最后,生成相关问题时要考虑用户可能进一步的疑问,比如正态性检验方法、p解释、不同相关系数的比较,以及实际应用案例。这样可以帮助用户全面了解相关系数检验的相关知识。</think>### 相关系数的统计检验方法及实现 #### 一、检验的基本原理 相关系数的统计检验目的是判断两个变量之间的相关性是否具有统计学意义,通常包括以下步骤: 1. **假设建立** - 原假设 $H_0$:两个变量无显著相关性(相关系数 $\rho = 0$) - 备择假设 $H_1$:两个变量存在显著相关性($\rho \neq 0$)[^1] 2. **统计量计算** - 根据相关系数类型(如皮尔逊、斯皮尔曼)选择对应的统计量公式。 3. **显著性判断** - 通过统计量的分布(如 t 分布)计算 p ,若 p 小于显著性水平(如 $\alpha=0.05$),则拒绝原假设。 --- #### 二、常见相关系数检验方法 ##### 1. **皮尔逊相关系数检验** - **适用条件**:数据满足正态分布且为连续变量。 - **检验步骤**: 1. 计算皮尔逊相关系数 $r$: $$ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} $$ 2. 构造 t 统计量: $$ t = r \sqrt{\frac{n-2}{1-r^2}} $$ 其中 $n$ 为样本量,自由度为 $n-2$[^1]。 3. 根据 t 分布计算 p 。 ##### 2. **斯皮尔曼相关系数检验** - **适用条件**:数据为等级变量或非正态分布。 - **检验步骤**: 1. 将数据转换为等级,计算斯皮尔曼相关系数 $r_s$: $$ r_s = 1 - \frac{6 \sum d_i^2}{n(n^2-1)} $$ 其中 $d_i$ 为两变量对应等级的差。 2. 构造统计量:当 $n \geq 10$ 时,可用 t 检验: $$ t = r_s \sqrt{\frac{n-2}{1-r_s^2}} $$ 3. 通过查表或分布计算 p [^1]。 --- #### 三、实现方法(Python示例) ##### 1. 皮尔逊检验 ```python from scipy.stats import pearsonr x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] r, p_value = pearsonr(x, y) print(f"相关系数: {r:.3f}, p: {p_value:.5f}") # 输出: 相关系数: 1.000, p: 0.00000 ``` ##### 2. 斯皮尔曼检验 ```python from scipy.stats import spearmanr x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] r_s, p_value = spearmanr(x, y) print(f"相关系数: {r_s:.3f}, p: {p_value:.5f}") # 输出: 相关系数: 1.000, p: 0.00000 ``` --- #### 四、注意事项 1. **数据正态性检验**:使用皮尔逊系数前需验证数据是否服从正态分布(如 Shapiro-Wilk 检验)。 2. **样本量要求**:斯皮尔曼检验在小样本($n<10$)时需查专用临界表。 3. **多重检验校正**:若进行多次检验,需对 p 进行校正(如 Bonferroni 校正)。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值