方差膨胀因子(VIF)学习

最新推荐文章于 2024-09-04 11:00:52 发布

lazy_sheep_sheep

最新推荐文章于 2024-09-04 11:00:52 发布

阅读量3w

点赞数 4

CC 4.0 BY-SA版权

分类专栏：学习文章标签：机器学习 r语言统计学

本文链接：https://blog.youkuaiyun.com/SCIEIYXK/article/details/104585690

本文通过R语言介绍方差膨胀因子(VIF)的概念及其在检测多重共线性中的应用。首先导入研究共线性的数据集，建立回归模型，接着对自变量进行t检验，计算VIF值，并验证其另一种定义。通过相关关系图发现存在严重的多重共线性问题。最后，使用step()函数筛选变量，并探讨F-value与R2的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考博客：https://blog.youkuaiyun.com/jiabiao1602/article/details/39177125

1.导入数据,R自带研究共线性的数据集

该数据集有7个变量，其中GNP.deflator可以作为 $y$

rm(list=ls())
data=longley
print(data)

在这里插入图片描述

2.对全变量建立回归模型

model=lm(GNP.deflator~.,data=data)
summary(model)

在这里插入图片描述
$结论：\color{red}{结论：}$ 从上面的结果可以看出，6个自变量中，只有两个变量的 $p$ 值是显著的,此处看结果，要知道，多元线性回归的检验两种：一种是对回归方程的检验(F检验)，另一种是对各个回归系数的检验，因为在回归方程中，即使回归方程显著，也不能说明每个自变量对y的影响都是显著的，因此我们总想从回归方程中剔除哪些次要的，可有可无的变量，重新建立更简单的方程。所以需要我们对每个自变量进行显著性检验。其中对自变量进行检验使用的t检验,从上面的summary()可以看出，Residual standard error是sigma_hat的估计

3.t检验计算,以GNP为例

# 显然此处p=6,此处的model$fitted_value与predict(model)是相同的值
# 这个和glm模型的值是不一样的
# 
sig_2=sum((data$GNP.deflator-predict(model))*(data$GNP.deflator-predict(model))) 
sig_hat=sqrt(sig_2/9)
#我一直不知道R里面把拟合的sigma_hat怎么取出来，可以以下面的方式
#不要以为summary(model)只是返回结果，如果输入a=summary(model)
#那么a是一个对象，那么就可以以a$sigma来获得sigma的估计值了
# 其余的属性也是类似的，其中拟合优度为a$r.squared
y=data[,1];
design_matrix=data[,c(-1)];
design_matrix=cbind(interc=rep(1,16),design_matrix)#直接Ctrl+enter就可以运行
design_matrix=as.matrix(design_matrix)
y=as.matrix(y)
beta=solve(t(design_matrix)%*%design_matrix)%*%t(design_matrix)%*%y

t_test=beta/(sqrt(diag(solve(t(design_matrix)%*%design_matrix)))*sig_hat)
print(t_test)

在这里插入图片描述
此处可以看到，对于截距项的检验也是t检验算出来的(虽然一般不看这个)，
检验的公式为 $t=β^j(cjj)σ^t=\frac{\hat\beta_{j}}{\sqrt(c_{jj})\hat\sigma}$