正则化线性建模与变量选择:理论、方法与案例分析
1. 正则化参数的选择
在进行正则化线性建模时,虽然能够高效地获取整个解路径是很好的,但我们仍需选择一个特定的正则化参数 λ。这一点至关重要,因为 λ 控制着偏差 - 方差权衡。传统的模型选择方法依赖于各种指标,如 Mallows’ Cp、AIC、BIC 和调整后的 R²。而内部统计验证(交叉验证)是一种流行的现代替代方法,它具有以下优点:
- 选择基于预测性能。
- 做出的模型假设较少。
- 应用范围更广。
2. 交叉验证的动机
理想情况下,我们希望有一个单独的验证集来为给定方法选择 λ。重复使用训练集可能会导致过拟合,而使用测试数据来选择 λ 可能会低估真实错误率。当我们没有足够的数据来创建单独的验证集时,交叉验证提供了一种替代策略。
3. n 折交叉验证
n 折交叉验证的步骤如下:
1. 随机将训练数据分成 n 部分(“折”)。
2. 使用 n - 1 折的数据为多个 λ 值拟合模型。
3. 在最后剩下的一折上计算一些预测质量指标(如均方误差 MSE、准确率)。
4. 重复该过程,并对各次迭代的预测指标求平均值。
常见的 n 值选择有 5、10 和 n(对应留一法交叉验证)。一个标准误差规则是选择与均方误差在最小均方误差的一个标准误差范围内的最小模型对应的 λ。
4. LASSO 和 Ridge 模型的 10 折交叉验证
以帕金森病案例研究为例,对 LASSO 和 Ridge 模型进行 10 折交叉验证。以下是具体的 R 代码实现:
<
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



