正则化线性建模:从理论到实践
1. 正则化线性建模基础
1.1 可视化中的特征与系数
在可视化图形中,不同颜色代表特征向量,对应系数会随着正则化参数 λ 变化而展示。顶部坐标轴显示当前 λ 值下非零系数的数量。对于 LASSO 正则化,该顶部坐标轴对应模型的有效自由度(df)。
1.2 岭回归(Ridge)的作用
在高度病态问题(n << k)中,微小的特征扰动可能导致对应权重计算出现不成比例的变化,此时岭回归在模型估计中非常有用。当 λ 非常大时,正则化效果主导目标函数的优化,系数趋向于零;当 λ 趋近于 0 时,模型解趋向于普通最小二乘法(OLS),系数会出现较大波动。在实践中,通常需要调整 λ 来平衡这种权衡。
1.3 不同类型的正则化
在 cv.glmnet 调用中, alpha = 0 对应岭回归, alpha = 1 对应 LASSO 回归,而 0 < alpha < 1 对应弹性网络混合正则化。
2. LASSO 回归
2.1 LASSO 回归原理
LASSO 回归通过最小化包含 L1 正则化项的目标函数来估计线性回归系数,该正则化项有助于减少特征数量。目标函数的保真项(左侧)和正则化项(右侧)表示如下:
[
\sum_{i=1}^{n} \left[ y_i - \beta_0 - \sum_{j=1}^{k} \beta_j x_{ij} \right]^2 +
超级会员免费看
订阅专栏 解锁全文
1441

被折叠的 条评论
为什么被折叠?



