详解L1正则化的作用

最新推荐文章于 2025-11-24 15:52:28 发布

原创最新推荐文章于 2025-11-24 15:52:28 发布 · 585 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #算法 #损失函数 #L1正则化 #过拟合 #深度学习

人工智能算法常见概念专栏收录该内容

57 篇文章

订阅专栏

一、概念

L1 正则化（L1 Regularization）又称 Lasso 正则化（Least Absolute Shrinkage and Selection Operator），是机器学习中常用的正则化技术，核心作用是限制模型参数复杂度并实现特征稀疏性，在防止过拟合和特征选择中具有重要价值。

二、原理

L1 正则化通过在原模型的损失函数中添加参数的 L1 范数（即参数绝对值的和）作为惩罚项，约束参数取值。以线性回归为例，原始的损失函数设为均方误差MSE：

$LOSS_{MSE} = \frac{1}{n} \sum_{i=1}^{n}(y_{i}- \hat{y_{i}})^{2}$

其中：

$\hat{y_{i}}=w^{T}x_{i}+b$

则添加L1正则化后的损失函数为：

$L = LOSS_{MSE} + \lambda \cdot ||w||_{1}$

其中， $||w||_{1}= \sum_{j=1}^{d}|w_{j}|$ 是参数向量w的L1范数，d为特征维度， $w_{j}$ 是第 j 个特征的权重。 $\lambda \geq 0$ 是正则化强度，该值越大惩罚越重，对参数的约束越强，当它等于0时退化为无正则化的原始模型。

三、特性

L1 正则化最独特的性质是能使部分参数收缩至 0（即特征权重为 0），实现 “特征稀疏性”。这一特性的成因可从数学推导和几何解释两方面理解。

1、数学推导

在模型训练（如梯度下降）中，参数更新需考虑正则化项的梯度。L1 正则化项 $\lambda \sum |w_{j}|$
的导数（严格来说是 “次梯度”）为：

$\frac{ \partial }{\partial w_{j}}(\lambda|w_{j}|)=\lambda \cdot sign(w_{j})$

其中， $sign(w_{j})$ 是符号函数，当 $w_{j}$ 大于0时为1， $w_{j}$ 小于0时为-1， $w_{j}$ 等于0时为0。则参数更新公式变为：

$w_{j} \leftarrow w_{j}- \eta \cdot(\frac{\partial LOSS_{MSE}}{\partial w_{j}}+ \lambda \cdot sign(w_{j}))$

由此可得，当 $w_{j}$ 较小时，正则化项的惩罚可能超过原损失函数的梯度，迫使 $w_{j}$ 直接收缩至 0；当 $w_{j}$ 较大时（对应重要特征），原损失函数的梯度主导更新， $w_{j}$ 仅被适当压缩而不会归零。

2、几何解释

从优化的几何角度看，模型训练的目标是 “在正则化约束下最小化原损失函数”。原损失函数 $LOSS_{MSE}$ 的等高线是椭圆形（以线性回归为例），越靠近中心，损失越小；L1 正则化的约束条件是 $||w||_{1} \leq t$ （t 与 λ 负相关），其可行域是菱形（二维）或 “超菱形”（高维）。

最优解是 “椭圆形等高线与菱形可行域的切点”。由于菱形的顶点在坐标轴上（某一参数为 0），切点更可能落在坐标轴上，这意味着至少有一个参数被压缩至 0。随着 λ 增大（t 减小），菱形收缩，更多参数会因切点落在坐标轴上而变为 0，最终实现稀疏性。

四、作用

1、防止过拟合

过拟合的本质是模型 “过度学习训练数据中的噪声”，导致参数复杂（权重过大或过多）。L1 正则化通过惩罚参数的绝对值，限制权重不能过大，降低模型对噪声的敏感性，从而提高泛化能力：

对低维数据：避免模型因 “拟合噪声” 而导致的权重异常；
对高维数据：通过压缩冗余特征的权重，减少模型复杂度。

2、自动特征选择

L1 正则化的稀疏性使不重要的特征权重直接变为 0，等价于 “自动剔除这些特征”，实现特征选择。这一特性在高维数据（如基因数据、文本特征）中尤为重要。例如，在 1000 个特征中，L1 正则化可能仅保留 10 个非零权重的特征，其余 990 个被自动剔除。相比手动特征选择，L1 正则化基于数据驱动，更客观且高效。

3、模型简化

稀疏性使模型仅依赖少数关键特征，降低了模型的复杂度。例如，线性回归中若仅 3 个特征的权重非零，可直接解释 “目标变量主要由这 3 个特征决定”。简化的模型更易理解和部署，尤其在需要人工干预的场景（如医疗、金融）中优势明显。

4、处理多重共线性

当特征间存在高度相关性（多重共线性）时，普通线性回归的参数估计会不稳定（权重波动大）。L1 正则化通过将冗余特征的权重压缩至 0，保留其中最具代表性的特征，缓解共线性问题。

五、总结

在使用L1正则化的过程中，我们还需要注意下面几点内容。首先，L1 正则化对特征尺度敏感（如单位不同的特征权重惩罚不公平），需先对特征标准化（如均值为 0、方差为 1）。其次，λ 过小则稀疏性不足，过大则可能剔除重要特征导致欠拟合，需通过交叉验证选择最优 λ 。最后，当特征维度远大于样本量时，L1 正则化可能存在多个最优解，需结合实际业务判断保留的特征。

特性	L1正则化	L2正则化
稀疏性	会导致部分参数置0，从而产生稀疏解	仅缩小参数，不会归零，仍然是稠密解
几何可行域	菱形	圆形/超球体
适用场景	高维数据、特征选择	低维数据、仅需防止过拟合