一、概念
L1 正则化(L1 Regularization)又称 Lasso 正则化(Least Absolute Shrinkage and Selection Operator),是机器学习中常用的正则化技术,核心作用是限制模型参数复杂度并实现特征稀疏性,在防止过拟合和特征选择中具有重要价值。
二、原理
L1 正则化通过在原模型的损失函数中添加参数的 L1 范数(即参数绝对值的和)作为惩罚项,约束参数取值。以线性回归为例,原始的损失函数设为均方误差MSE:
其中:
则添加L1正则化后的损失函数为:
其中,是参数向量w的L1范数,d为特征维度,
是第 j 个特征的权重。
是正则化强度,该值越大惩罚越重,对参数的约束越强,当它等于0时退化为无正则化的原始模型。
三、特性
L1 正则化最独特的性质是能使部分参数收缩至 0(即特征权重为 0),实现 “特征稀疏性”。这一特性的成因可从数学推导和几何解释两方面理解。
1、数学推导
在模型训练(如梯度下降)中,参数更新需考虑正则化项的梯度。L1 正则化项
的导数(严格来说是 “次梯度”)为:
其中,是符号函数,当
大于0时为1,
小于0时为-1,
等于0时为0。则参数更新公式变为:
由此可得,当较小时,正则化项的惩罚可能超过原损失函数的梯度,迫使
直接收缩至 0;当
较大时(对应重要特征),原损失函数的梯度主导更新,
仅被适当压缩而不会归零。
2、几何解释
从优化的几何角度看,模型训练的目标是 “在正则化约束下最小化原损失函数”。原损失函数的等高线是椭圆形(以线性回归为例),越靠近中心,损失越小;L1 正则化的约束条件是
(t 与 λ 负相关),其可行域是菱形(二维)或 “超菱形”(高维)。
最优解是 “椭圆形等高线与菱形可行域的切点”。由于菱形的顶点在坐标轴上(某一参数为 0),切点更可能落在坐标轴上,这意味着至少有一个参数被压缩至 0。随着 λ 增大(t 减小),菱形收缩,更多参数会因切点落在坐标轴上而变为 0,最终实现稀疏性。
四、作用
1、防止过拟合
过拟合的本质是模型 “过度学习训练数据中的噪声”,导致参数复杂(权重过大或过多)。L1 正则化通过惩罚参数的绝对值,限制权重不能过大,降低模型对噪声的敏感性,从而提高泛化能力:
- 对低维数据:避免模型因 “拟合噪声” 而导致的权重异常;
- 对高维数据:通过压缩冗余特征的权重,减少模型复杂度。
2、自动特征选择
L1 正则化的稀疏性使不重要的特征权重直接变为 0,等价于 “自动剔除这些特征”,实现特征选择。这一特性在高维数据(如基因数据、文本特征)中尤为重要。例如,在 1000 个特征中,L1 正则化可能仅保留 10 个非零权重的特征,其余 990 个被自动剔除。相比手动特征选择,L1 正则化基于数据驱动,更客观且高效。
3、模型简化
稀疏性使模型仅依赖少数关键特征,降低了模型的复杂度。例如,线性回归中若仅 3 个特征的权重非零,可直接解释 “目标变量主要由这 3 个特征决定”。简化的模型更易理解和部署,尤其在需要人工干预的场景(如医疗、金融)中优势明显。
4、处理多重共线性
当特征间存在高度相关性(多重共线性)时,普通线性回归的参数估计会不稳定(权重波动大)。L1 正则化通过将冗余特征的权重压缩至 0,保留其中最具代表性的特征,缓解共线性问题。
五、总结
在使用L1正则化的过程中,我们还需要注意下面几点内容。首先,L1 正则化对特征尺度敏感(如单位不同的特征权重惩罚不公平),需先对特征标准化(如均值为 0、方差为 1)。其次,λ 过小则稀疏性不足,过大则可能剔除重要特征导致欠拟合,需通过交叉验证选择最优 λ 。最后,当特征维度远大于样本量时,L1 正则化可能存在多个最优解,需结合实际业务判断保留的特征。
| 特性 | L1正则化 | L2正则化 |
|---|---|---|
| 稀疏性 | 会导致部分参数置0,从而产生稀疏解 | 仅缩小参数,不会归零,仍然是稠密解 |
| 几何可行域 | 菱形 | 圆形/超球体 |
| 适用场景 | 高维数据、特征选择 | 低维数据、仅需防止过拟合 |
3042

被折叠的 条评论
为什么被折叠?



