L1与L2正则化

博客介绍了L1与L2范数。L1范数是向量元素绝对值之和,能实现特征自动选择,将无信息特征权重置为0;L2范数是向量元素平方和的平方根,使特征权重尽量小。二者均可避免过拟合,L1适合特征有关联情况,L2适合无关联情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

L1与L2范数

L1范数:

  • L1范数指向量中各个元素绝对值之和。
  • ∥ω∥1=∑i∣xi∣\left \| \omega \right \|_{1}=\sum_{i}\left | x_{i} \right |ω1=ixi
  • 也称叫 “稀疏规则算子” (Lasso Regularization)。为什么能稀疏呢?关键原因在于它能实现特征的自动选择。一般来说,训练集中的某些特征和输出y,之间并没有多大关系。在训练时引入这些特征,当然能获得更小的训练误差,但其泛化能力比较差,即造成过拟合。
  • L1范数的引入就是为了实现特征自动选择,它会将没有信息的特征对应的权重置为0.

L2范数:

  • L1范数指向量备元素的平方和然后再求平方根。
    ∥ω∥2=∑i∣xi∣2\left \| \omega \right \|_{2}=\sum_{i}\left | x_{i} \right |^{2}ω2=ixi2
  • 又称 岭回归” (Ridge Regression) ,也有的叫 “权值衰减” (Weight Decay),同样是为了解决过拟合问题,但与L1范数不同的是L2是使得特征对应的权重尽量的小,接近于0(但不会等于0)。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。为什么呢?这里给出一个说法:参数越小,表示模型不会过分地学习训练集的某个特征,也即更不容易造成过拟合。

对比

  • 相同点
    • 均可用于避免过拟合,降低模型复杂度
  • 不同点
    • L1可让一部分特征的系数缩小至0,从而间接实现特征的选择,因此L1更适合特征间有关联的情况。L2可让所有特征的系数都缩小,但是不会变成零,会使得优化求解稳定快速,因此L2更适合特征间没有关联的情况
    • L1服从拉普拉斯分布,L2服从高斯分布

惩罚项是减小过拟合的推导

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值