对L1正则化和L2正则化的理解

本文探讨了正则化在防止机器学习模型过拟合中的作用,详细讲解了L1和L2范数的概念及应用,解释了它们如何帮助模型保持简单并提升泛化能力。

一、 奥卡姆剃刀(Occam's razor)原理:

         在所有可能选择的模型中,我们应选择能够很好的解释数据,并且十分简单的模型。从贝叶斯的角度来看,正则项对应于模型的先验概率。可以假设复杂模型有较小的先验概率,简单模型有较大的先验概率。   

二、正则化项

     2.1、什么是正则化?

      正则化是结构风险最小化策略的实现,在经验风险上加一个正则项或罚项,正则项一共有两种L1正则化和L2正则化,或者L1范数和L2范数。对于线性回归模型,使用L1正则化的模型叫做Lasso回归;使用L2正则化的模型叫做Ridge回归(岭回归)

     2.2、正则化项和模型复杂度之间的关系

        正则化项一般是模型复杂度的单调递增的函数,模型越复杂,正则化值越大。

    一般来说,监督学习可以看做最小化下面的目标函数:

      

       上式中的第1项为经验风险,即模型f(x)关于训练数据集的平均损失;第2项为正则化项,去约束我们的模型更加简单

三、L1范数

     3.1概念: L1范数是指向量中各个元素绝对值之和。

     3.2 为什么L1范数会使权值稀疏?

        任何的正则化算子,如果他在Wi=0的地方不可微,并且可以分解为“求和” 的形式,那么这个正则化算子就可以实现稀疏。

   3.3 参数稀疏有什么好处?

    (1)特征选择(Feature Selection)

      参数稀疏规则化能够实现特征的自动选择,在特征工程的过程中,一般来说,xi的大部分元素(特征)都和其标签yi没有关系的。我们在最小化目标函数的时候,考虑了这些无关特征,虽然可以获得最小的训练误差,但是对于新的样本时,这些没用的信息反而被考虑,干扰了对样本的预测。稀疏规则化将这些没用的特征的权重置为0,去掉这些没用的特征。

     (2)可解释性

     将无关特征置为0,模型更容易解释。例如:患某种病的概率为y,我们收集到的数据x是1000维的,我们的任务是寻找这1000种因素是如何影响患上这种病的概率。假设,我们有一个回归模型:y=w1*x1+w2*x2+…+w1000*x1000+b,通过学习,我们最后学习到w*只有很少的非零元素。例如只有5个非零的w*,那么这5个w*含有患上这种病的关键信息。也就是说,是否患上这种病和这5个特征相关,那事情变得容易处理多了。

四、L2范数

     4.1 概念:L2范数是指向量各元素的平方和然后再求平方根。

        正则化项可以取不同的形式。对于回归问题中,损失函数是平方损失,正则化项为参数向量L2的范数。

     4.2 为什么L2范数可以防止过拟合?

        左一:欠拟合;中间:正常拟合;右侧:过拟合

线性回归拟合图

       让L2范数的正则项||W||2最小,可以使得W的每个元素都很小,都接近于0。(L1范数让W等于0),而越小的参数说明模型越简单,越简单的模型越不容易产生过拟合的现象。(结合上图线性回归拟合图可知,限制了某些参数很小,其实也就限制了多项式的某些分量的影响很小,这也就相当于减少了变量的个数)

### L1正则化与L2正则化的定义 L1正则化L2正则化是机器学习中常用的两种正则化方法,用于防止模型过拟合并提升泛化能力。L1正则化基于1-范数的概念,在损失函数中加入权重绝对值之作为惩罚项[^1]。其数学形式如下: ```python Loss_L1 = Loss_original + λ * Σ|w_i| ``` 其中 `λ` 是正则化参数,控制正则化强度;`Σ|w_i|` 表示权重的绝对值之。 相比之下,L2正则化基于2-范数的概念,通过在损失函数中增加权重平方的形式来实现正则化[^3]。具体表达式为: ```python Loss_L2 = Loss_original + λ/2 * Σ(w_i^2) ``` 这里的 `λ/2` 同样表示正则化强度,而 `Σ(w_i^2)` 则代表权重平方的总。 --- ### 正则化的作用 无论是L1还是L2正则化,它们的核心作用都是通过对模型权重施加约束,从而降低复杂度并避免过拟合现象的发生。然而,两者的实际效果存在显著差异。 #### L1正则化的特点 L1正则化的一个突出特点是能够生成稀疏解,这意味着它会将部分不重要的特征对应的权重压缩至零[^2]。这种特性使其非常适合于高维数据中的特征选择任务,因为它能有效剔除无关紧要的变量,进而简化模型结构并增强解释性。 此外,由于L1正则化倾向于忽略噪声较大的样本点,因此具备较好的抗噪性能。 #### L2正则化的优势 不同于L1正则化追求稀疏性的策略,L2正则化更注重平滑分布权重值,使各特征的重要性更加均衡。这种方法不会直接消除任何单一特征的影响,而是通过缩小整体权重规模达到抑制过拟合的目的。 值得注意的是,随着现代深度学习技术的发展,L2正则化因其良好的数值稳定性高效优化表现,逐渐成为主流应用之一。 --- ### 两者的主要区别 以下是L1正则化与L2正则化之间几个关键方面的对比总结: 1. **目标导向** - L1正则化旨在构建稀疏解决方案,适合处理冗余特征较多的数据集。 - L2正则化致力于均匀分配权重资源,适用于需要保留全部输入信息的情形。 2. **几何意义** - 在参数空间内,L1正则化对应着菱形轮廓线,容易触及坐标轴形成零权重组件。 - 而L2正则化呈现圆形边界形状,促使所有方向上的分量均有所缩减而非完全消失。 3. **适用场景** - 当面临大量潜在无用属性时,优先考虑采用L1正则化来进行内置筛选操作。 - 若希望维持原始维度不变同时改善稳定性,则推荐运用L2正则化手段。 4. **计算成本** - 实现过程中发现,相较于单纯依赖梯度下降算法更新规则而言,引入L1正则化可能带来额外运算负担因需频繁判断阈值条件。 - 反观之下,L2正则化通常仅涉及简单的乘法累加过程因而相对简便快捷一些。 --- ### 结论 综上所述,尽管二者同属正则化范畴且共享预防过度匹配这一共同使命,但在机制设计、应用场景等方面各有侧重。合理选取恰当类型的正则化措施对于最终建模成果至关重要。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值