线性回归中的关键指标与区间估计详解
1. 决定系数与共线性检测
1.1 决定系数(Coefficient of Determination)
决定系数用于衡量协变量对响应变量的解释程度,其最大值为 1。通过以下代码示例可以计算决定系数:
N=100; m=2; x=matrix(rnorm(m*N),ncol=m); y=rnorm(N); R2(x,y)
# [1] 0.002332905
N=100; m=1; x=matrix(rnorm(m*N),ncol=m); y=rnorm(N); R2(x,y); cor(x,y)^2
# [1] 0.004391959
# [,1]
# [1,] 0.004391959
1.2 方差膨胀因子(Variance Inflation Factors, VIF)
方差膨胀因子用于衡量在其他协变量存在的情况下,每个协变量的冗余程度。其计算公式为:
[VIF := \frac{1}{1 - R^2_{X_j|X_{-j}}}]
其中,(R^2_{X_j|X_{-j}}) 是当第 (j) 个变量作为响应变量,其他 (p - 1) 个变量作为协变量时的决定系数。VIF 值越大,说明该协变量越能被其他协变量解释,即第 (j) 个协变量具有冗余性。VIF 的最小值为 1,当 VIF 值较大时,表明该协变量的共线性较强。
以下是计算波士顿数据集 VIF 的代码示例:
vif=function(x){
p=ncol(x)