2. 统计学习笔记之【岭回归与广义岭回归性质证明】

本博文已同步于知乎。


在多元线性回归分析中,当解释变量存在多重共线性时,普通最小二乘估计的效果会受到影响,而岭回归和广义岭回归作为常用的有偏估计方法,能有效改善这一问题。

在中国人民大学版本的《应用回归分析》中,只列出了岭回归的相关性质而没有证明,对广义岭回归的模型和性质也没有深入探讨。相关学习网站上也缺乏相关证明。

以下将整理岭回归和广义岭回归主要性质的证明过程,以明晰其理论依据。


一、岭回归

岭回归的参数估计为:\hat{\beta}(k) = (X'X + kI)^{-1}X'y

1、线性性

k为常数时,\hat{\beta}(k)=(X'X+kI)^{-1}X'y是最小二乘估计\hat{\beta}的一个线性变换,也是y的函数。

实际情况下,k的选取取决于Xy,从而线性性不成立。

2、有偏性

\hat{\beta}(k)\beta的有偏估计。

E(\hat{\beta}(k)) = (X'X + kI)^{-1}X'X\beta

Cov(\hat{\beta}(k)) = \sigma^2(X'X + kI)^{-1}X'X(X'X + kI)^{-1}

前两条性质在教材都有证明过程,在此省略。笔者注。

3、压缩性

对于任意k>0\|\hat{\beta}\|\neq0,总有\|\hat{\beta}(k)\|<\|\hat{\beta}\|。这个性质表明\hat{\beta}(k)可以看作\hat{\beta}进行某种向原点的压缩。

这也是岭回归可以进行变量选择的理论依据。笔者注。

证明:

考虑回归模型Y = X\beta+\varepsilon

将其写为典则形式:Y = Z\alpha + \varepsilon...(1)。其中,Z = X\Phi,\quad\alpha=\Phi'\beta

\Phi为正交矩阵,是设计矩阵交叉乘积阵X'X的特征向量组成的矩阵。

由于Z'Z=\Phi'X'X\Phi=\Lambda

则由(1)式导出的\alpha的最小二乘估计为:\hat{\alpha} = (Z'Z)^{-1}Z'Y = \Lambda^{-1}Z'Y

可以证明,\beta的最小二乘估计\hat{\beta}\hat{\alpha}有如下关系:\hat{\alpha}=\Phi'\hat{\beta},等价地,\hat{\beta}=\Phi\hat{\alpha}

相应的岭估计分别为:\hat{\alpha}(k) = (\Lambda + k\cdot I)^{-1}Z'Y\hat{\beta}(k) = \Phi\hat{\alpha}(k)

因此有\|\hat{\beta}(k)\| = \|\hat{\alpha}(k)\| = \left\|(\Lambda + k\cdot I)^{-1}\Lambda\hat{\alpha}\right\| < \|\hat{\alpha}\| = \|\hat{\beta}\|。得证。

4、更优性

必存在一个k>0,使得MSE(\hat{\beta}(k)) < MSE(\hat{\beta}(0))

这个性质表明岭估计可通过选择合适的k,在 “引入少量偏差” 和 “显著降低方差” 之间取得平衡,最终实现更优的整体估计效果(以 MSE 衡量),为岭估计在多重共线性问题中的应用提供了关键理论支撑。

证明:

根据(2)式,有MSE(\hat{\beta}(k))=MSE(\hat{\alpha}(k)).

因此只需证明存在k>0,使得MSE(\hat{\alpha}(k)) < MSE(\hat{\alpha}(0))

其中,Cov(\hat{\alpha}(k)) = \sigma^2(\Lambda + kI)^{-1}\Lambda(\Lambda + kI)^{-1}

E(\hat{\alpha}(k)) = (\Lambda + kI)^{-1}Z'Z\alpha = (\Lambda + kI)^{-1}\Lambda\alpha

因此,均方误差可分解为:

\begin{aligned} MSE(\hat{\alpha}(k)) &= trCov(\hat{\alpha}(k)) + \|E[\hat{\alpha}(k)] - \alpha\|^2 \\ &= \sigma^2\sum_{i=1}^{p}\frac{\lambda_i}{(\lambda_i + k)^2} + k^2\sum_{i=1}^{p}\frac{\alpha_i^2}{(\lambda_i + k)^2} \\ &\triangleq g_1(k) + g_2(k) \triangleq g(k) \end{aligned}

对上述函数关于k求导:

g_1'(k) = -2\sigma^2\sum_{i=1}^{p}\frac{\lambda_i}{(\lambda_i + k)^3}g_2'(k) = 2k\sum_{i=1}^{p}\frac{\lambda_i\alpha_i^2}{(\lambda_i + k)^3}

由于g_1'(0)<0g_2'(0)<0,所以g'(0)<0

又因为g_1'(k)g_2'(k)k\geqslant 0上连续,

因此当k>0且充分小时,有g'(k)=g_1'(k)+g_2'(k)<0

g(k)=MSE(\alpha^{k})是减函数。

故存在k>0,使得g(k)<g(0),即MSE(\hat{\alpha}(k)) < MSE(\hat{\alpha}(0))。得证。

5、对证明的说明

Q1:为什么要使用典则形式?

典则形式是将原多元线性回归模型通过正交变换转化得到的简化形式。

【典则形式】这个名称不是线性回归独有的,比如最优化问题也有它的【典则形式】,在语义上可以等同于【标准形式】。有时是定义的差别,有时仅是翻译的问题。笔者注。

使用典则形式的核心原因是简化(一般化)运算:

原模型中X'X可能是病态矩阵(特征值差异大),而典则形式中Z'Z = \Lambda为对角阵,其逆矩阵、迹等运算更简单,便于推导估计量的性质(如岭估计的范数压缩性、均方误差等)。

Q2:岭回归就是岭估计吗?

这个问题可能会普遍地困扰一些初学者,尤其是对概念容易混淆的同学。

岭估计是【参数的估计方法 / 结果】,岭回归是【基于该估计构建的回归方程】。

二者是不同层面的概念,但的确是同一套步骤和理论框架下的。

在大多数教材中,这一部分知识都叫做【岭回归】,但几乎都只停留在【岭估计】的阶段,这是因为在完成岭估计后的步骤和线性回归完全相同。类似的情况还有【参数估计】和【经验回归方程】、【主成分分解/分析】和【主成分回归】等。笔者注。


二、广义岭回归

Hoerl 和 Kennard (1970) 提出了岭估计的一种推广形式, 称为广义岭估计 (Generalized ridge estimate)。

普通的岭回归估计是给样本相关阵的主对角线加上相同的常数k,广义岭回归是给样本相关阵的主对角线加上各不相同的常数 k_j 。

广义岭回归的参数估计为:\hat{\beta}(K) =L(\Lambda + K)^{-1}L'X'y= (X'X + LKL')^{-1}X'y

前一个等号为定义(通过典则形式表示),后一个等号见性质1。笔者注。

K=kI的时候,广义岭估计就是岭估计等价。

1、线性性

广义岭估计可写作:\hat{\beta}(K) = B_k\hat{\beta},其中B_k=(X'X + LKL')^{-1}(X'X),即广义岭估计是最小二乘估计的线性变换。

证明:

广义岭回归定义为:\hat{\beta}(K) = L(\Lambda + K)^{-1}L'X'y

而最小二乘估计\hat{\beta}=(X'X)^{-1}X'y,即X'y = X'X\hat{\beta}。代入上式得:

\hat{\beta}(K) = L(\Lambda + K)^{-1}L'X'X\hat{\beta}

又因为X'X = L\Lambda L',则:\hat{\beta}(K) = L(\Lambda + K)^{-1}L' \cdot L\Lambda L' \cdot \hat{\beta} = L(\Lambda + K)^{-1}\Lambda L' \hat{\beta}

B_k = L(\Lambda + K)^{-1}\Lambda L' = (X'X + LKL')^{-1}(X'X),可得\hat{\beta}(K) = B_k\hat{\beta}。得证。

2、有偏性

广义岭估计\hat{\beta}(K)也是\beta的有偏估计。

证明:

E\hat{\beta}(K) = E(B_k\hat{\beta}) = B_kE(\hat{\beta}) = B_k\beta,即只要B_k \neq I(等价于K \neq 0),广义岭估计就是有偏估计。得证。

3、压缩性

对于任意的K = diag(k_1, ..., k_p)\),\(k_i \geq 0\),\(\|\hat{\beta}\| > 0,总有\|\hat{\beta}(K)\| < \|\hat{\beta}\|

证明:

由广义岭估计的定义\hat{\beta}(K) = L\hat{\alpha}(K),其中\hat{\alpha}(K) = (\Lambda + K)^{-1}Z'Y

\hat{\alpha} = \Lambda^{-1}Z'Y,故\hat{\alpha}(K) = (\Lambda + K)^{-1}\Lambda \hat{\alpha}

因此:\|\hat{\beta}(K)\| = \|\hat{\alpha}(K)\| = \left\|(\Lambda + K)^{-1}\Lambda \hat{\alpha}\right\|

由于(\Lambda + K)^{-1}\Lambda是对角元小于 1 的对角矩阵(因k_i \geq 0),

\left\|(\Lambda + K)^{-1}\Lambda \hat{\alpha}\right\| < \|\hat{\alpha}\| = \|\hat{\beta}\|,即\|\hat{\beta}(K)\| < \|\hat{\beta}\|。得证。

4、更优性

存在K = diag(k_1, ..., k_p) > 0,使得MSE(\hat{\beta}(K)) < MSE(\hat{\beta})

证明:

均方误差MSE(\hat{\beta}(K)) = trCov(\hat{\beta}(K)) + \|E\hat{\beta}(K) - \beta\|^2

其中,Cov(\hat{\beta}(K)) = \sigma^2B_k(X'X)^{-1}B_k',偏差项\|E\hat{\beta}(K) - \beta\|^2 = \|(B_k - I)\beta\|^2

K充分小时,协方差项的减少量会大于偏差项的增加量。

仿照岭回归性质 4 的证明思路,通过对MSE关于K的导数分析可知,

存在K>0使得MSE(\hat{\beta}(K)) < MSE(\hat{\beta})。得证。

三、广义岭回归的意义

广义岭回归作为岭回归的推广,通过更灵活的参数设置实现对多重共线性问题的更精准处理,同时进一步优化估计性能,具体意义可从以下两个方面展开:

1. 提升参数压缩的灵活性

岭回归的核心是引入单一岭参数 k(即K=kII为单位矩阵),对所有回归系数(或典则系数 \alpha 进行统一程度的压缩

这种方式无法区分不同解释变量的多重共线性程度差异 —— 例如,对特征值极小(受多重共线性影响严重)的典则系数与特征值较大(受影响较小)的典则系数,压缩力度完全一致,可能导致 【过度压缩有用信息】或【压缩不足仍存共线性】的问题。

而广义岭回归将单一参数k推广为对角矩阵 K=diag(k_1,k_2,\dots,k_p)k_i\geq0 为对应第 i 个典则系数的岭参数),可针对每个典则系数 \alpha_i(对应原模型中不同解释变量的 【有效信息成分】)设置独立的压缩强度

例如,对特征值 \lambda_i\approx0(共线性严重)的典则系数,可设置更大的 k_i 以更强压缩方差;对 \lambda_i 较大(共线性轻微)的典则系数,设置更小的k_i以减少不必要的偏差,更贴合实际数据中不同变量的共线性差异。

实际上,k_i的选择方法和岭回归是相似的。笔者注。

2. 进一步优化均方误差(MSE)

估计量的均方误差由 “方差” 和 “偏差平方” 共同决定,岭回归通过引入单一 k 实现 “方差降低幅度覆盖偏差增加幅度”,而广义岭回归凭借多参数 k_i 的灵活性,能更精细地平衡二者关系:

  • 对受多重共线性影响大的参数(对应小 \lambda_i ),较大的 k_i 可显著降低其方差,且仅引入少量偏差(因该参数本身估计稳定性差,适度偏差对整体 MSE 影响小);
  • 对受多重共线性影响小的参数(对应大 \lambda_i),较小的 k_i 可几乎保持其原有低偏差特性,同时避免方差过度增加。

这种【针对性调节】使广义岭回归理论上能实现比岭回归更小的 MSE,进一步提升估计的整体精度,尤其在解释变量共线性程度差异较大的场景中,优势更明显。


欢迎各位读者在评论区交流讨论。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值