目录
一、数据
糖尿病数据(diabetes.csv)包含在R程序包的lars中,是关于糖尿病的血液等化验指标。除了因变量y之外,还有两个自变量矩阵,前者经过标准化,后者包括前者及一些交互作用。
可以使用以下代码将数据保存为csv文件方便调用
#install.packages("lars")
library(lars)
data(diabetes) #加载数据
write.csv(diabetes,"diabetes.csv",row.names = FALSE)
二、共线性检查
在多元回归中,当两个或更多的自变量有些相关的时候,就可能出现多重共线性的情况。这种情况严重的时候,模型或数据的微小变化有可能造成系数估计的较大变化,使结果模型不稳定,也不易解释。
有一些关于多重共线性的度量,其中之一使容忍度(tolerance)或方差膨胀因子(VIF)【两者等价】

容忍度太小(按照一些文献,小于0.2或0.1)或VIF太大(如5或10),则有多重共线性的问题
还有一个是条件数,常用
表示,大于15时有共线性问题,大于30时说明共线性严重

VIF可以通过程序包car的函数vif()得到,条件数可用R固有的函数kappa()得到
w=read.csv("diabetes.csv")
#w[,1:10]为x,w[,11]为y,w[,12:75]为x2
kappa(w[,12:75])
library(carData)
library(car)

本文深入探讨了多元回归分析中的关键概念和技术,包括共线性检查、岭回归、lasso回归、适应性lasso回归和偏最小二乘回归。通过实例分析,展示了如何使用R语言进行数据预处理、模型构建与评估。
最低0.47元/天 解锁文章
3157





