损失函数L1正则化稀疏性

机器学习算法中为了防止过拟合,会在损失函数中加上惩罚因子,即为L1/L2正则化。因此最终的优化目标函数为:
f(x) = L(x) + C*Reg(x) , C > 0
本文只讲解L1正则化,因此Reg(x) = |x|
首先L(x)和Reg(x)都是连续函数,因此f(x)也是连续函数;其次L(x)和Reg(x)都是凸函数,因此f(x)也是凸函数;所以f(x)是有最优解的。而|x|仅在x=0时是不可导的,
当f(x)有最优解0时的必要条件为, f(x)在x=0处的左导数与右导数异号,即
(L’(0) + C)(L’(0) - C) < 0 得到C > |L’(0)|

下面举一个例子说明:
目标函数为f(x,y) = (x-1)^2+(y+2)^2 + 3.0(|x|+|y|)
使用SGD得到最优解, 代码如下:

#!/usr/bin/env python
#-*- coding:utf8 -*-
import sys

def sign(x):
    if x > 0:
        return 1
    elif x < 0:
        return -1
    else:
        return 0

learning_rate = 0.001
C = 3.0
def solution(derive, init_pnt):
    dim_num = len(init_pnt)
    pnt = [x for x in init_pnt]
    print pnt, derive
    for i in xrange(10000):
        deri_arr = []
        for d in xrange(dim_num):
            deri = derive[d](pnt[d])
            deri_arr.append(deri)
            pnt[d] = pnt[d] - learning_rate * deri
        print pnt, deri_arr
    return pnt

if __name__ == "__main__":
    # y = (x - 1)**2 + (y + 1) ** 2 + C(|x| + |y|)
    derive = [lambda x: 2*(x-1)+C*sign(x), lambda y: 2*(y+2)+C*sign(y)]
    init_pnt = [5, 5]
    point = solution(derive, init_pnt)

    print "minimum point of f(x,y) = (x-1)^2+(y+2)^2 + %s(|x|+|y|) : (%s,%s)" % (C, point[0], point[1])

迭代10000次,结果如下:
[0.004361948510801818, -0.4999999975259809] [-5.001278660298994, 4.957954047313251e-09]
[0.0033532246137802147, -0.49999999753092894] [1.0087238970216037, 4.948038423435719e-09]
[0.002346518164552654, -0.4999999975358671] [1.0067064492275604, 4.93814233948342e-09]
[0.0013418251282235488, -0.4999999975407954] [1.0046930363291053, 4.928265795456355e-09]
[0.0003391414779671017, -0.4999999975457138][1.0026836502564471, 4.9184092354437325e-09]
[-0.0006615368049888324, -0.49999999755062235][1.0006782829559342, 4.908572215356344e-09]
[0.004339786268621145, -0.4999999975555211] [-5.001323073609978, 4.898755179283398e-09]
[0.0033311066960839027, -0.4999999975604101] [1.0086795725372424, 4.888957683135686e-09]
[0.002324444482691735, -0.49999999756528923] [1.0066622133921679, 4.8791797269132076e-09]
[0.0013197955937263512, -0.49999999757015867] [1.0046488889653835, 4.869421310615962e-09]
minimum point of f(x,y) = (x-1)^2+(y+2)^2 + 3.0(|x|+|y|) : (0.00131979559373,-0.49999999757)

这个例子中(x,y)=(0,0)时,
f’_(x) f’+(x)= (-2-3) (-2+3) < 0
f’_(y) f’+(y)= (4-3) (4+3) > 0
所以f(x,y)在x维的最优解为0,在y维的最优解不为0。反映在上面的迭代过程中,也是x维接近为0,y维远偏离于0。从加粗的数来看,x维的导数从正数变为负数又变为正数,导数在0处左右波动,表明最优解就在附近。

<think>好的,我现在需要帮助用户了解L1正则化损失函数的概念、公式和应用场景。首先,我得回忆一下L1正则化的基本知识。根据用户提供的引用,L1正则化通常用于机器学习的损失函数中,用来防止过拟合,并且能够产生稀疏模型,适合特征选择。 首先,用户问到了定义。L1正则化是在损失函数中加入模型权重的L1范数作为惩罚项。L1范数就是权重的绝对值之和。这样做的目的是在优化过程中,让部分权重变为零,从而实现特征选择,减少模型复杂度。 接下来是公式。根据引用[2],线性回归中使用L1正则化的目标函数是:$$ \min_w \frac{1}{2n} \sum_{i=1}^n (y_i - w^Tx_i)^2 + \lambda ||w||_1 $$这里,前半部分是均方误差损失,后半部分是L1正则项,λ控制惩罚力度。需要确认这个公式是否正确,用户提供的引用中有这个公式,所以可以直接引用。 然后是作用。引用[1]提到L1正则化能产生稀疏矩阵,用于特征选择,同时防止过拟合。引用[3]解释了为什么L1会导致稀疏性,通过坐标轴下降法或者次梯度方法,使得部分权重变为零。需要说明这些作用,并结合引用来支持。 应用场景方面,用户可能需要知道什么时候使用L1。比如高维数据、特征选择需求大、需要模型简单的情况。例如文本分类,特征维度高,但相关特征少,L1可以帮助筛选重要特征。 还要注意回答的结构,分点说明,符合用户要求的结构清晰。同时生成相关问题,可能需要围绕L1与L2的区别、优化方法、实际应用例子等提问。 检查是否有遗漏的部分,比如L1正则化的优化算法,如坐标轴下降法(引用[2]),或者与拉格朗日乘数的关系(引用[3])。是否需要简要提到这些内容,以增强回答的深度。 最后,确保所有数学公式使用正确的LaTeX格式,行内公式用$...$,独立公式用$$...$$,并且正确标注引用标识。例如,在解释L1导致稀疏性时引用[3],在公式部分引用[2]等。 现在组织这些内容,确保逻辑连贯,信息准确,并符合用户的要求。</think>### L1正则化损失函数详解 #### **定义** L1正则化是一种在机器学习中用于**防止模型过拟合**的技术,通过在损失函数中加入模型参数的**L1范数**(绝对值之和)作为惩罚项。其主要作用是促使部分参数变为零,从而自动实现**特征选择**并降低模型复杂度[^1][^3]。 --- #### **公式** 对于线性模型(如线性回归),L1正则化损失函数定义为: $$ \min_w \frac{1}{2n} \sum_{i=1}^n (y_i - w^Tx_i)^2 + \lambda ||w||_1 $$ 其中: - **第一部分**:$\frac{1}{2n} \sum_{i=1}^n (y_i - w^Tx_i)^2$ 是均方误差损失函数。 - **第二部分**:$\lambda ||w||_1 = \lambda \sum_{j=1}^m |w_j|$ 是L1正则项,$\lambda$ 控制惩罚强度[^2]。 --- #### **作用** 1. **特征选择(稀疏性)** L1正则化会使部分权重$w_j$**精确变为0**,从而筛选出对预测贡献最大的特征,简化模型结构[^3]。 2. **防止过拟合** 通过限制参数大小,降低模型对训练数据的过度敏感,提升泛化能力。 3. **应对高维数据** 在特征维度远高于样本量时(如文本分类),L1正则化能有效减少冗余特征的影响。 --- #### **应用场景** 1. **高维稀疏数据** 例如自然语言处理(NLP)中的文本分类,特征数量可能高达数万,但实际相关特征较少。 2. **模型可解释性要求高** 如医学诊断模型,需明确哪些特征对结果影响显著。 3. **嵌入式特征选择** 在训练过程中直接完成特征筛选,避免额外步骤。 --- #### **与L2正则化的对比** | 特性 | L1正则化 | L2正则化 | |---------------|---------------------------|---------------------------| | 解的稀疏性 | 产生稀疏解(部分参数为0) | 参数接近但不为0 | | 抗噪声能力 | 较弱 | 较强 | | 优化方法 | 坐标轴下降法、次梯度法[^2] | 梯度下降法 | | 适用场景 | 特征选择 | 防止过拟合,参数平滑 | ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值