深度学习——L0、L1及L2范数

本文深入探讨了深度学习中防止过拟合的关键技术——正则化。详细讲解了L0、L1和L2范数的作用及差异,解释了它们如何帮助模型在保持简单的同时,有效降低训练误差,提高泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在深度学习中,监督类学习问题其实就是在规则化参数同时最小化误差。最小化误差目的是让模型拟合训练数据,而规则化参数的目的是防止模型过分拟合训练数据。

参数太多,会导致模型复杂度上升,容易过拟合,也就是训练误差小,测试误差大。因此,我们需要保证模型足够简单,并在此基础上训练误差小,这样训练得到的参数才能保证测试误差也小,而模型简单就是通过规则函数来实现的。

规则化项可以是模型参数向量的范数。如:L0、L1、L2等。 

一、L0范数与L1范数

       L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。换句话说,让参数W是稀疏的。

       L1范数是指向量中各个元素绝对值之和。L1范数是L0范数的最优凸近似。任何的规则化算子,如果他在Wi=0的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。W的L1范数是绝对值,|w|在w=0处是不可微。

       虽然L0可以实现稀疏,但是实际中会使用L1取代L0。因为L0范数很难优化求解,L1范数是L0范数的最优凸近似,它比L0范数要容易优化求解。

二、L2范数

       L2范数,又叫“岭回归”(Ridge Regression)、“权值衰减”(weight decay)。这用的很多吧,它的作用是改善过拟合。过拟合是:模型训练时候的误差很小,但是测试误差很大,也就是说模型复杂到可以拟合到所有训练数据,但在预测新的数据的时候,结果很差。

       L2范数是指向量中各元素的平方和然后开根。我们让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。

      

三、L1范数和L2范数的差别

一个是绝对值最小,一个是平方最小:

L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。

### L1正则化与L2正则化的概念 在机器学习和深度学习领域,L1正则化和L2正则化是用于防止过拟合的重要技术。这两种方法的核心思想是在损失函数中加入额外的惩罚项,从而约束模型复杂度。 #### L1正则化 L1正则化通过在损失函数中增加权重绝对值之和作为惩罚项来实现正则化[^1]。这种形式的正则化通常被称为拉普拉斯正则化或Lasso回归。它的一个显著特点是能够生成稀疏解,即部分特征对应的权重会被精确设置为零[^2]。这一特性使得L1正则化非常适合于高维数据中的特征选择任务,因为它能有效剔除无关紧要的特征[^3]。 #### L2正则化 相比之下,L2正则化采用的是权重平方和的形式作为惩罚项。这种方法又称为岭回归(Ridge Regression)。不同于L1正则化,L2正则化不会使任何权重完全降为零;相反,它倾向于缩小所有权重的大小并均匀分布这些权重到各个特征上。因此,在实际应用中,L2正则化更注重平滑处理而非直接删除变量。 --- ### L1正则化与L2正则化的区别 以下是两者的主要差异: | **对比维度** | **L1正则化** | **L2正则化** | |---------------------|--------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------| | **稀疏性** | 能够产生稀疏解决方案,即将一些不重要的特征权重设为0,适用于特征选择场景 | 不会产生严格意义上的稀疏性,而是让所有的权重都变得较小 | | **对异常值敏感程度**| 对异常值相对较为稳健 | 更容易受到极端值的影响 | | **优化难度** | 寻找全局最优解可能较困难 | 数学性质较好,求解过程更加稳定 | 具体来说,由于L1范数不可微分的特点,其最优化算法收敛速度可能会慢于基于二次型目标函数构建起来的标准梯度下降法所对应的情况下的表现水平。然而正是如此才成就了前者独特的“压缩感知”能力——即使面对大量冗余输入也能提取出真正有意义的信息片段出来加以利用。 --- ### 应用场合分析 - 当面临海量候选属性却只希望保留少数几个关键因素参与建模时,则优先考虑引入L1规范化机制; - 如果仅仅是为了抑制过度复杂的假设空间规模扩张趋势的话那么选用后者往往更为合适一点因为这样既可以维持较高的数值稳定性同时也无需担心丢失掉潜在有用的知识成分。 此外值得注意的一点就是尽管二者均属于线性变换范畴之内但是各自侧重方向存在本质差别所以并不能简单地说哪一个更好或者更适合某种特定类型的题目解答需求而已实际上更多时候还是取决于具体的业务背景以及相应的先验知识积累状况等因素综合考量之后再做决定才是明智之举。 ```python import numpy as np from sklearn.linear_model import Lasso, Ridge # 构造简单的模拟数据集 X = np.array([[1, 2], [3, 4]]) y = np.array([5, 6]) # 使用L1正则化训练模型 lasso_reg = Lasso(alpha=0.1) lasso_reg.fit(X, y) print("L1正则化后的系数:", lasso_reg.coef_) # 使用L2正则化训练模型 ridge_reg = Ridge(alpha=0.1) ridge_reg.fit(X, y) print("L2正则化后的系数:", ridge_reg.coef_) ``` 上述代码展示了如何分别运用`scikit-learn`库里的`Lasso`类和`Ridge`类来进行不同种类别的参数估计操作流程演示说明文档链接如下所示. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值