Lasso、Lasso-LARS 和 Elastic Net Paths 详解

Lasso、Lasso-LARS 和 Elastic Net Paths 详解

一、Lasso (Least Absolute Shrinkage and Selection Operator)

核心原理

在普通线性回归的损失函数中引入 L1 正则化项,目标函数为:
minimize ( 1 2 n ∑ i = 1 n ( y i − β 0 − ∑ j = 1 p β j x i j ) 2 + λ ∑ j = 1 p ∣ β j ∣ ) \text{minimize} \left( \frac{1}{2n} \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p |\beta_j| \right) minimize(2n1i=1n(yiβ0j=1pβjxij)2+λj=1pβj)
L1 正则化通过压缩部分系数至零实现特征选择,特别适用于高维稀疏数据。

Paths 含义

随着正则化参数 λ \lambda λ 增大,模型系数 β j \beta_j βj 从全量解逐步缩减至零的轨迹。通过调整 λ \lambda λ,可观察不同稀疏度下的模型表现。

二、Lasso-LARS (Least Angle Regression)

算法特点

LARS 是一种高效求解 Lasso 路径的算法,通过逐步调整与残差相关性最高的特征方向,以分段线性方式生成完整正则化路径(即所有 λ \lambda λ 对应的系数变化)。

优势

相比坐标下降法,LARS 能直接计算所有可能 λ \lambda λ 值的解路径,避免重复拟合,计算效率更高。

应用场景

适合需要观察系数动态变化或快速选择 λ \lambda λ 的场景,如特征重要性分析。

三、Elastic Net

核心原理

结合 L1 和 L2 正则化,目标函数为:
minimize ( 1 2 n ∑ i = 1 n ( y i − β 0 − ∑ j = 1 p β j x i j ) 2 + λ ( α ∑ j = 1 p ∣ β j ∣ + ( 1 − α ) ∑ j = 1 p β j 2 ) ) \text{minimize} \left( \frac{1}{2n} \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \left( \alpha \sum_{j=1}^p |\beta_j| + (1 - \alpha) \sum_{j=1}^p \beta_j^2 \right) \right) minimize(2n1i=1n(yiβ0j=1pβjxij)2+λ(αj=1pβj+(1α)j=1pβj2))
其中 α \alpha α 控制 L1/L2 的混合比例。Elastic Net 在高度相关特征间实现系数分组效应,平衡特征选择与稳定性。

Paths 含义

通过同时调整 λ \lambda λ α \alpha α,观察系数在稀疏性和平滑性之间的权衡路径。通常通过坐标下降法求解路径。

四、对比总结

方法正则化类型特点适用场景
LassoL1稀疏解,特征选择高维数据、稀疏特征场景
Lasso-LARSL1(路径算法)分段线性路径,高效计算完整解集动态系数分析、快速调参
Elastic NetL1 + L2平衡稀疏性与稳定性,处理共线性特征特征相关性强、需模型鲁棒性场景

五、应用建议

  • Lasso:优先用于特征维度远高于样本量或需明确特征重要性的场景。
  • Lasso-LARS:需快速生成完整正则化路径时选用(如可视化系数变化)。
  • Elastic Net:当特征间存在强相关性或需兼顾模型稳定性时使用。

\

Lasso、Lasso-LARS 和 Elastic Net Paths 的深入解析

一、Lasso Paths

定义与生成机制

Lasso 的系数路径描述的是随着正则化参数 λ \lambda λ 从 0 逐渐增大时,各特征对应系数 β j \beta_j βj 从全量最小二乘解逐步收缩至零的动态过程。这种路径的形成源于 L1 正则化对系数绝对值的惩罚作用,迫使非重要特征的系数优先归零,从而实现特征筛选。

数学特性

  • 分段线性:Lasso 路径在 λ \lambda λ 的变化过程中呈现分段线性特性,即系数随 λ \lambda λ 的变化呈线性关系,直到某个特征被剔除(系数归零)后路径方向发生突变。
  • 稀疏性阈值:当 λ \lambda λ 超过某一阈值时,所有系数均被压缩至零,此时模型退化为常数预测值(仅保留截距项 β 0 \beta_0 β0)。

求解方法

常用坐标下降法(Coordinate Descent)遍历 λ \lambda λ 序列,逐次更新单个系数并保持其他系数固定,通过迭代逼近最优解。

二、Lasso-LARS Paths

算法原理

LARS(最小角回归)通过几何投影生成完整的正则化路径:

  • 初始阶段:选择与残差相关性最强的特征,沿其方向调整系数。
  • 迭代过程:逐步引入新特征或调整方向,使残差与当前活跃特征的相关系数保持等速衰减。
  • 终止条件:当所有特征均被纳入模型或残差为零时停止。

路径特性

  • 分段线性与精确性:LARS 直接计算路径的转折点(拐点),生成严格的分段线性路径,无需预设 λ \lambda λ 网格。
  • 计算效率:相比坐标下降法,LARS 在中等规模数据下(特征数 p ≤ 1 0 4 p \leq 10^4 p104)可一次性生成完整路径,避免重复优化。

与 Lasso 的结合

LARS 通过添加“符号一致性约束”可适配 Lasso 的稀疏路径,称为 Lasso-LARS。其优势在于直观展示特征进入模型的顺序及对预测的贡献变化。

三、Elastic Net Paths

双参数控制路径

Elastic Net 的路径受两个参数影响:

  • λ \lambda λ:控制整体正则化强度,决定系数收缩幅度。
  • α \alpha α:调节 L1/L2 正则化混合比例( α = 1 \alpha = 1 α=1 时退化为 Lasso, α = 0 \alpha = 0 α=0 时为岭回归)。

路径特性

  • 分组效应:L2 正则化使高度相关特征的系数倾向于同步变化,避免 Lasso 可能出现的随机选择单一特征的问题。
  • 平滑性:L2 项的引入使路径在 λ \lambda λ 变化时更平滑,降低模型对噪声的敏感性。

路径生成方法

采用坐标下降法,通过调整 α \alpha α λ \lambda λ 的联合参数空间,生成多维度路径。实际应用中常固定 α \alpha α,仅观察 λ \lambda λ 对路径的影响。

四、三种 Paths 的对比

维度Lasso PathsLasso-LARS PathsElastic Net Paths
正则化类型L1 惩罚L1 惩罚(几何路径生成)L1+L2 混合惩罚
路径连续性分段线性精确分段线性平滑连续
特征选择严格稀疏性稀疏性 + 特征进入顺序稀疏性 + 分组效应
计算复杂度中等(需遍历 λ \lambda λ 网格)低(单次生成完整路径)高(需处理双参数空间)
适用场景高维稀疏数据特征筛选可视化特征重要性变化共线性数据鲁棒建模

五、路径分析的实际意义

  • 模型诊断:观察系数路径可识别特征对预测的边际贡献,辅助理解变量间竞争关系。
  • 超参数选择:通过交叉验证在路径上选择最优 λ \lambda λ(或 α \alpha α),平衡模型复杂度与预测性能。
  • 稳定性验证:若路径中某特征的系数频繁震荡或符号变化,可能提示该特征与目标变量关联不稳定。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值