收缩估计量:原理、应用与计算
1. 弹性网络
早期,岭回归虽已存在多年,但受欢迎程度有限。直到 20 世纪 90 年代 LASSO 方法的引入(以及稍早提出的一些相关方法),才重新唤起了人们对回归情境中收缩估计量的兴趣。此后,统计/机器学习研究领域蓬勃发展,出现了对 LASSO 思想的各种改进方法,弹性网络便是其中之一。
弹性网络定义为使下式最小化的 $b$ 值:
$$
\sum_{i=1}^{n}(Y_i - e^{X_ib})^2 + \lambda_1b_1 + \lambda_2||b||_2^2
$$
其背后的思路是,在特定情境下,我们可能不确定岭回归和 LASSO 哪个具有更好的预测能力,因此可以同时使用两者来“分散风险”。可以通过交叉验证来选择 $\lambda_i$ 的值。
2. 精确多重共线性情况(包括 $p > n$)
如今,预测变量数量多于观测值数量(即 $p > n$)的情况很常见。过去,这种情况被认为是不可能的,因为矩阵 $A$ 必然不满秩,导致 $A’A$ 不可逆。然而,现在人们更具探索精神,希望在这种情况下进行回归和分类分析,而收缩估计量提供了一种可能的解决方案。
2.1 为何可行
以岭回归为例,即使 $A’A$ 不可逆,对于任意 $\lambda > 0$,$A’A + \lambda I$ 都是可逆的(这可从相关分析及矩阵秩等于非零特征值数量这一事实得出)。所以,对于 $p > n$ 的情况,仍有解决的希望。
2.2 R 中 mtcars 数据集示例
mtcars 是 R
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



