202209-GitModel Task03-回归分析2_线性回归模型的推断与推广_对一个参数的线性组合的检验-优快云博客

本文链接：https://blog.youkuaiyun.com/wwb19422012/article/details/126922741

本笔记为DataWhale 9月GitModel课程的学习内容，链接为：
https://github.com/Git-Model/Modeling-Universe/Data Analysis and Statistical Modeling/

一、T 检验

1. 单参数检验问题: $H_{0}: \beta_{j}=\beta_{j 0} \leftrightarrow H_{1}: \beta_{j} \neq \beta_{j 0}$ （ $\beta_{j 0}$ 为任意常数）

回归系数的显著性检验就是“系数是否为0”的检验：
$H_{0}: \beta_{j}=0 \leftrightarrow H_{1}: \beta_{j} \neq 0$
原假设 $H_{0}$ 一般是我们要拒绝的部分，而且我们要在一个合理的范围内拒绝原假设 $H_{0}$ 。为此设立一个临界值 $C$
，若 $\left|\hat{\beta}_{j}-0\right|>C$ ，我们就拒绝假设 $H_{0}$ 。
在进行假设检验的过程中，不论拒绝与否，都有概率会犯以下两类错误的其中之一：

第一类错误，即原假设成立但是我们拒绝了它。犯第一类错误的概率称为拒真概率。
第二类错误，即原假设不成立但是我们没有拒绝它。

保证发生第一类错误的概率需要在一个给定的、较小的水平 $\alpha$ ，这个 $\alpha$ 也被称为显著性水平。
$P_{H_0\,\,is\,\,true}\left( \left| \hat{\beta}_j-\beta _{j0} \right|>C \right) =P\left( \left| \hat{\beta}_j-0 \right|>C \right) =\alpha$

（1）双边检验：

$P\left(\left|\hat{\beta}_{j}\right|>C\right)=P\left(\frac{\left|\hat{\beta}_{j}\right|}{\operatorname{se}\left(\hat{\beta}_{j}\right)}>\frac{C}{\operatorname{se}\left(\hat{\beta}_{j}\right)}\right)=\alpha$

$\frac{C}{\mathrm{se}\left( \hat{\beta}_j \right)}=t_{n-k-1}\left( 1-\frac{\alpha}{2} \right)$
$\implies$    $C=t_{n-k-1}(1-\alpha /2)\mathrm{se}\left( \hat{\beta}_j \right)$
$\implies$    $\left| \hat{\beta}_j \right| > C$
$\implies$    $\left| \hat{\beta}_j \right|>t_{n-k-1}(1-\alpha /2)\mathrm{se}\left( \hat{\beta}_j \right)$

这个系数是显著的，我们便可以拒绝原假设。

（2）单边检验：

单边检验则更关注变量对模型的正效应或负效应，其原假设和备择假设如下：
$H_0:\beta _j=\beta _{j0}\leftrightarrow H_1:\beta _j>\beta _{j0}\,\,\left( \beta _{j0}=0 \right)$
求解目标也转变为：
$P\left( \hat{\beta}_j-0>C \right)=\alpha$
$C=t_{n-k-1}(1-\alpha)\mathrm{se}\left( \hat{\beta}_j \right)$
若有： $\hat{\beta}_j >t_{n-k-1}(1-\alpha)\mathrm{se}\left( \hat{\beta}_j \right)$
那么系数是显著的，可以拒绝原假设。
对应python中的不同函数：

For p-values:

cdf(x, df, loc=0, scale=1): Cumulative distribution function.
sf(x, df, loc=0, scale=1): Survival function (also defined as 1 - cdf, but sf is sometimes more accurate).

For t-values:

ppf(q, df, loc=0, scale=1): Percent point function (inverse of cdf — percentiles).
interval(confidence, df, loc=0, scale=1): Confidence interval with equal areas around the median.

具体细节可以参考：scipy.stats.t .

（3）p值(p-values)

p值是在本次分析的样本观测值下，给出的能拒绝原假设的最小显著性水平，它只与样本观测值和我们做的假设检验有关；
p值越小越可以拒绝原假设；
p值本质上是一种累积概率；
双边检验的p值为单边检验的两倍。

p值的形式与我们做的备择假设 $H_1$ 有关：

若 $H_{1}: \beta_{j} \neq \beta_{j 0}$ ，则： $pvalue=P\left( \left| t_{n-k-1} \right|>\left| \frac{\hat{\beta}_j-\beta _{j0}}{se\left( \hat{\beta}_j \right)} \right| \right)$ ；
若 $H_{1}: \beta_{j} > \beta_{j 0}$ ，则： $pvalue=P\left( t_{n-k-1}>\frac{\hat{\beta}_j-\beta _{j0}}{se\left( \hat{\beta}_j \right)} \right)$ ；
若 $H_{1}: \beta_{j} < \beta_{j 0}$ ，则： $pvalue=P\left( t_{n-k-1}<\frac{\hat{\beta}_j-\beta _{j0}}{se\left( \hat{\beta}_j \right)} \right)$ ；

Tips: 由于双边检验p值是对单边检验p值乘两倍得来的，我们要根据t值是否大于0来选择左/右尾累积概率，若小于0，则选择左尾；反之右尾。

2. 参数线性组合检验问题: $H_0:f\left( \beta \right) =\beta _0\leftrightarrow H_1:f\left( \beta \right) \ne \beta _0$ ( $\beta _0$ 为任意常数)

sm.formula.ols与sm.ols不同，其最大的特点是可以指定模型的形式，这非常有利于我们自主的构建模型，此后我们将统一使用该指令。
值得注意的是，sm.formula.ols默认带截距项。

Tips:

这里告诉大家巧用summary中的双侧p值进行单侧0值检验的小技巧。在summary中，t值小于0，说明它后面的双侧p值是使用左侧累积概率乘两倍得来的，而在本例中我们的备择假设是小于0，p值也应当是左侧累积概率，因此我们只需将报告表中的p值除以2即可。而如果t值小于0，但是备择假设却大于0，那么无需思考，p值一定大于0.5，我们肯定不能拒绝原假设。

二、F 检验

1. F 检验适用范围

F检验是回归分析中多个线性假设检验问题（多参数检验问题）的常用检验方法。
多个线性假设检验问题可分为如下：
a. 多参数联合显著性检验问题： $H_{0}: \beta _i=\cdots =\beta _j=0 \leftrightarrow H_{1}:H_{0}$ 不成立；
b. 一般多参数检验问题： $H_0:\beta _n=\beta _{n0}\,\,, \beta _i=\cdots =\beta _j=0\leftrightarrow H_1:H_{0}$ 不成立；

Tips：

多个参数做联合显著性检验完全不等价于多个参数分开做显著性t检验。
如果我们是出于联合检验的目的但是却做了分开检验，将大大增加拒真概率。由于无法分开始用t检验进行联合检验，我们需要一种新的检验方法——F检验。

2. F统计量的定义：

在回归分析中，F检验更像是在比较两种模型的差异程度(variances of the two normal populations)：
- 一个是，原模型——无约束模型(unrestricted model)；
- 另一个是，原假设 $H_0$ 成立下的条件代入后的有约束模型(restricted model)。
无约束模型比有约束模型多了 $H_0$ 成立下的参数与变量。
一般而言，模型变量越多，对训练集数据的变异解释程度会越高，拟合优度会越好，进而残差平方和会减小。
如果两个模型残差平方和的差异足够大，说明原假设约束的加入使模型产生了显著性的变化，即原假设是显著的。
F 检验统计量形式如下： $F=\frac{\left( RSS_r-RSS_{ur} \right) /q}{RSS_{ur}/(n-k-1)}\sim F_{q,n-k-1}$ 它服从自由度为 $q$ 与 $n - k - 1$ 的F分布，其中 $q$ 为有效约束个数， $n - k - 1$ 为无约束模型自由度。
F检验拒绝原假设的判别规则： $F>F_{q,n-k-1}\left( 1-\alpha \right)$

Python做 F检验常用函数：

sf(x, dfn, dfd, loc=0, scale=1): Survival function (also defined as 1 - cdf, but sf is sometimes more accurate).
isf(q, dfn, dfd, loc=0, scale=1): Inverse survival function (inverse of sf).

具体细节可以参考：scipy.stats.f

3. T-test V.S. F-test

Comparison Chart

BASIS FOR COMPARISON	T-TEST	F-TEST
Definition	A t-test is a form of the statistical hypothesis test, based on Student’s t-statistic and t-distribution to find out the p-value (probability) which can be used to accept or reject the null hypothesis.	F-test is described as a type of hypothesis test, that is based on Snedecor f-distribution, under the null hypothesis. The test is performed when it is not known whether the two populations have the same variance.
Meaning	T-test is a univariate hypothesis test, that is applied when standard deviation is not known and the sample size is small. (所以我们会用 se 代替sd)	F-test is statistical test, that determines the equality of the variances of the two normal populations.
Test statistic	T-statistic follows Student t-distribution, under null hypothesis.	F-statistic follows Snedecor f-distribution, under null hypothesis.
Application	Comparing the means of two populations.	Comparing two population variances.
Formula	$\frac{\hat{\beta}_{j}-\beta_{j}}{\operatorname{se}\left(\hat{\beta}_{j}\right)} \sim t_{n-k-1}$	$F=\frac{\left( RSS_r-RSS_{ur} \right) /q}{RSS_{ur}/(n-k-1)}\sim F_{q,n-k-1}$