Lasso、Lasso-LARS 和 Elastic Net Paths 详解

未来创世纪

已于 2025-03-28 09:59:09 修改

阅读量369

点赞数 3

CC 4.0 BY-SA版权

文章标签：机器学习 scikit-learn

于 2025-03-28 09:49:01 首次发布

本文链接：https://blog.youkuaiyun.com/xinjichenlibing/article/details/146586221

Lasso、Lasso-LARS 和 Elastic Net Paths 详解

一、Lasso (Least Absolute Shrinkage and Selection Operator)

核心原理

在普通线性回归的损失函数中引入 L1 正则化项，目标函数为：
$\text{minimize} \left( \frac{1}{2n} \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p |\beta_j| \right)$
L1 正则化通过压缩部分系数至零实现特征选择，特别适用于高维稀疏数据。

Paths 含义

随着正则化参数 $λ\lambda$ 增大，模型系数 $βj\beta_j$ 从全量解逐步缩减至零的轨迹。通过调整 $λ\lambda$ ，可观察不同稀疏度下的模型表现。

二、Lasso-LARS (Least Angle Regression)

算法特点

LARS 是一种高效求解 Lasso 路径的算法，通过逐步调整与残差相关性最高的特征方向，以分段线性方式生成完整正则化路径（即所有 $λ\lambda$ 对应的系数变化）。

优势

相比坐标下降法，LARS 能直接计算所有可能 $λ\lambda$ 值的解路径，避免重复拟合，计算效率更高。

应用场景

适合需要观察系数动态变化或快速选择 $λ\lambda$ 的场景，如特征重要性分析。

三、Elastic Net

核心原理

结合 L1 和 L2 正则化，目标函数为：
$\text{minimize} \left( \frac{1}{2n} \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \left( \alpha \sum_{j=1}^p |\beta_j| + (1 - \alpha) \sum_{j=1}^p \beta_j^2 \right) \right)$
其中 $α\alpha$ 控制 L1/L2 的混合比例。Elastic Net 在高度相关特征间实现系数分组效应，平衡特征选择与稳定性。

Paths 含义

通过同时调整 $λ\lambda$ 和 $α\alpha$ ，观察系数在稀疏性和平滑性之间的权衡路径。通常通过坐标下降法求解路径。

四、对比总结

方法	正则化类型	特点	适用场景
Lasso	L1	稀疏解，特征选择	高维数据、稀疏特征场景
Lasso-LARS	L1（路径算法）	分段线性路径，高效计算完整解集	动态系数分析、快速调参
Elastic Net	L1 + L2	平衡稀疏性与稳定性，处理共线性特征	特征相关性强、需模型鲁棒性场景

五、应用建议

Lasso：优先用于特征维度远高于样本量或需明确特征重要性的场景。
Lasso-LARS：需快速生成完整正则化路径时选用（如可视化系数变化）。
Elastic Net：当特征间存在强相关性或需兼顾模型稳定性时使用。

Lasso、Lasso-LARS 和 Elastic Net Paths 的深入解析

一、Lasso Paths

定义与生成机制

Lasso 的系数路径描述的是随着正则化参数 $λ\lambda$ 从 0 逐渐增大时，各特征对应系数 $βj\beta_j$ 从全量最小二乘解逐步收缩至零的动态过程。这种路径的形成源于 L1 正则化对系数绝对值的惩罚作用，迫使非重要特征的系数优先归零，从而实现特征筛选。

数学特性

分段线性：Lasso 路径在 $λ\lambda$ 的变化过程中呈现分段线性特性，即系数随 $λ\lambda$ 的变化呈线性关系，直到某个特征被剔除（系数归零）后路径方向发生突变。
稀疏性阈值：当 $λ\lambda$ 超过某一阈值时，所有系数均被压缩至零，此时模型退化为常数预测值（仅保留截距项 $β0\beta_0$ ）。

求解方法

常用坐标下降法（Coordinate Descent）遍历 $λ\lambda$ 序列，逐次更新单个系数并保持其他系数固定，通过迭代逼近最优解。

二、Lasso-LARS Paths

算法原理

LARS（最小角回归）通过几何投影生成完整的正则化路径：

初始阶段：选择与残差相关性最强的特征，沿其方向调整系数。
迭代过程：逐步引入新特征或调整方向，使残差与当前活跃特征的相关系数保持等速衰减。
终止条件：当所有特征均被纳入模型或残差为零时停止。

路径特性

分段线性与精确性：LARS 直接计算路径的转折点（拐点），生成严格的分段线性路径，无需预设 $λ\lambda$ 网格。
计算效率：相比坐标下降法，LARS 在中等规模数据下（特征数 $\leq 10^4$ ）可一次性生成完整路径，避免重复优化。

与 Lasso 的结合

LARS 通过添加“符号一致性约束”可适配 Lasso 的稀疏路径，称为 Lasso-LARS。其优势在于直观展示特征进入模型的顺序及对预测的贡献变化。

三、Elastic Net Paths

双参数控制路径

Elastic Net 的路径受两个参数影响：

$λ\lambda$ ：控制整体正则化强度，决定系数收缩幅度。
$α\alpha$ ：调节 L1/L2 正则化混合比例（ $α=1\alpha = 1$ 时退化为 Lasso， $α=0\alpha = 0$ 时为岭回归）。

路径特性

分组效应：L2 正则化使高度相关特征的系数倾向于同步变化，避免 Lasso 可能出现的随机选择单一特征的问题。
平滑性：L2 项的引入使路径在 $λ\lambda$ 变化时更平滑，降低模型对噪声的敏感性。

路径生成方法

采用坐标下降法，通过调整 $α\alpha$ 和 $λ\lambda$ 的联合参数空间，生成多维度路径。实际应用中常固定 $α\alpha$ ，仅观察 $λ\lambda$ 对路径的影响。

四、三种 Paths 的对比

维度	Lasso Paths	Lasso-LARS Paths	Elastic Net Paths
正则化类型	L1 惩罚	L1 惩罚（几何路径生成）	L1+L2 混合惩罚
路径连续性	分段线性	精确分段线性	平滑连续
特征选择	严格稀疏性	稀疏性 + 特征进入顺序	稀疏性 + 分组效应
计算复杂度	中等（需遍历 $λ\lambda$ 网格）	低（单次生成完整路径）	高（需处理双参数空间）
适用场景	高维稀疏数据特征筛选	可视化特征重要性变化	共线性数据鲁棒建模