Lasso、Lasso-LARS 和 Elastic Net Paths 详解
一、Lasso (Least Absolute Shrinkage and Selection Operator)
核心原理
在普通线性回归的损失函数中引入 L1 正则化项,目标函数为:
minimize
(
1
2
n
∑
i
=
1
n
(
y
i
−
β
0
−
∑
j
=
1
p
β
j
x
i
j
)
2
+
λ
∑
j
=
1
p
∣
β
j
∣
)
\text{minimize} \left( \frac{1}{2n} \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p |\beta_j| \right)
minimize(2n1i=1∑n(yi−β0−j=1∑pβjxij)2+λj=1∑p∣βj∣)
L1 正则化通过压缩部分系数至零实现特征选择,特别适用于高维稀疏数据。
Paths 含义
随着正则化参数 λ \lambda λ 增大,模型系数 β j \beta_j βj 从全量解逐步缩减至零的轨迹。通过调整 λ \lambda λ,可观察不同稀疏度下的模型表现。
二、Lasso-LARS (Least Angle Regression)
算法特点
LARS 是一种高效求解 Lasso 路径的算法,通过逐步调整与残差相关性最高的特征方向,以分段线性方式生成完整正则化路径(即所有 λ \lambda λ 对应的系数变化)。
优势
相比坐标下降法,LARS 能直接计算所有可能 λ \lambda λ 值的解路径,避免重复拟合,计算效率更高。
应用场景
适合需要观察系数动态变化或快速选择 λ \lambda λ 的场景,如特征重要性分析。
三、Elastic Net
核心原理
结合 L1 和 L2 正则化,目标函数为:
minimize
(
1
2
n
∑
i
=
1
n
(
y
i
−
β
0
−
∑
j
=
1
p
β
j
x
i
j
)
2
+
λ
(
α
∑
j
=
1
p
∣
β
j
∣
+
(
1
−
α
)
∑
j
=
1
p
β
j
2
)
)
\text{minimize} \left( \frac{1}{2n} \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \left( \alpha \sum_{j=1}^p |\beta_j| + (1 - \alpha) \sum_{j=1}^p \beta_j^2 \right) \right)
minimize(2n1i=1∑n(yi−β0−j=1∑pβjxij)2+λ(αj=1∑p∣βj∣+(1−α)j=1∑pβj2))
其中
α
\alpha
α 控制 L1/L2 的混合比例。Elastic Net 在高度相关特征间实现系数分组效应,平衡特征选择与稳定性。
Paths 含义
通过同时调整 λ \lambda λ 和 α \alpha α,观察系数在稀疏性和平滑性之间的权衡路径。通常通过坐标下降法求解路径。
四、对比总结
方法 | 正则化类型 | 特点 | 适用场景 |
---|---|---|---|
Lasso | L1 | 稀疏解,特征选择 | 高维数据、稀疏特征场景 |
Lasso-LARS | L1(路径算法) | 分段线性路径,高效计算完整解集 | 动态系数分析、快速调参 |
Elastic Net | L1 + L2 | 平衡稀疏性与稳定性,处理共线性特征 | 特征相关性强、需模型鲁棒性场景 |
五、应用建议
- Lasso:优先用于特征维度远高于样本量或需明确特征重要性的场景。
- Lasso-LARS:需快速生成完整正则化路径时选用(如可视化系数变化)。
- Elastic Net:当特征间存在强相关性或需兼顾模型稳定性时使用。
\
Lasso、Lasso-LARS 和 Elastic Net Paths 的深入解析
一、Lasso Paths
定义与生成机制
Lasso 的系数路径描述的是随着正则化参数 λ \lambda λ 从 0 逐渐增大时,各特征对应系数 β j \beta_j βj 从全量最小二乘解逐步收缩至零的动态过程。这种路径的形成源于 L1 正则化对系数绝对值的惩罚作用,迫使非重要特征的系数优先归零,从而实现特征筛选。
数学特性
- 分段线性:Lasso 路径在 λ \lambda λ 的变化过程中呈现分段线性特性,即系数随 λ \lambda λ 的变化呈线性关系,直到某个特征被剔除(系数归零)后路径方向发生突变。
- 稀疏性阈值:当 λ \lambda λ 超过某一阈值时,所有系数均被压缩至零,此时模型退化为常数预测值(仅保留截距项 β 0 \beta_0 β0)。
求解方法
常用坐标下降法(Coordinate Descent)遍历 λ \lambda λ 序列,逐次更新单个系数并保持其他系数固定,通过迭代逼近最优解。
二、Lasso-LARS Paths
算法原理
LARS(最小角回归)通过几何投影生成完整的正则化路径:
- 初始阶段:选择与残差相关性最强的特征,沿其方向调整系数。
- 迭代过程:逐步引入新特征或调整方向,使残差与当前活跃特征的相关系数保持等速衰减。
- 终止条件:当所有特征均被纳入模型或残差为零时停止。
路径特性
- 分段线性与精确性:LARS 直接计算路径的转折点(拐点),生成严格的分段线性路径,无需预设 λ \lambda λ 网格。
- 计算效率:相比坐标下降法,LARS 在中等规模数据下(特征数 p ≤ 1 0 4 p \leq 10^4 p≤104)可一次性生成完整路径,避免重复优化。
与 Lasso 的结合
LARS 通过添加“符号一致性约束”可适配 Lasso 的稀疏路径,称为 Lasso-LARS。其优势在于直观展示特征进入模型的顺序及对预测的贡献变化。
三、Elastic Net Paths
双参数控制路径
Elastic Net 的路径受两个参数影响:
- λ \lambda λ:控制整体正则化强度,决定系数收缩幅度。
- α \alpha α:调节 L1/L2 正则化混合比例( α = 1 \alpha = 1 α=1 时退化为 Lasso, α = 0 \alpha = 0 α=0 时为岭回归)。
路径特性
- 分组效应:L2 正则化使高度相关特征的系数倾向于同步变化,避免 Lasso 可能出现的随机选择单一特征的问题。
- 平滑性:L2 项的引入使路径在 λ \lambda λ 变化时更平滑,降低模型对噪声的敏感性。
路径生成方法
采用坐标下降法,通过调整 α \alpha α 和 λ \lambda λ 的联合参数空间,生成多维度路径。实际应用中常固定 α \alpha α,仅观察 λ \lambda λ 对路径的影响。
四、三种 Paths 的对比
维度 | Lasso Paths | Lasso-LARS Paths | Elastic Net Paths |
---|---|---|---|
正则化类型 | L1 惩罚 | L1 惩罚(几何路径生成) | L1+L2 混合惩罚 |
路径连续性 | 分段线性 | 精确分段线性 | 平滑连续 |
特征选择 | 严格稀疏性 | 稀疏性 + 特征进入顺序 | 稀疏性 + 分组效应 |
计算复杂度 | 中等(需遍历 λ \lambda λ 网格) | 低(单次生成完整路径) | 高(需处理双参数空间) |
适用场景 | 高维稀疏数据特征筛选 | 可视化特征重要性变化 | 共线性数据鲁棒建模 |
五、路径分析的实际意义
- 模型诊断:观察系数路径可识别特征对预测的边际贡献,辅助理解变量间竞争关系。
- 超参数选择:通过交叉验证在路径上选择最优 λ \lambda λ(或 α \alpha α),平衡模型复杂度与预测性能。
- 稳定性验证:若路径中某特征的系数频繁震荡或符号变化,可能提示该特征与目标变量关联不稳定。