机器学习-正则化 L0,L1范数

本文通过图形解释了机器学习中L0、L1与L2范数的概念,并探讨了优化过程中参数变化的原因及条件,强调了首次相交的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我是参考这篇博客理解的:

机器学习中的范数规则化之(一)L0、L1与L2范数 - 呆风语者 - 博客园

没有看其中优化部分的讲解,中间有一些地方补充一下我自己的理解。

这个文章很好的就是一开始就把这个公式放出来了:

w^{*}=arg\min_{w} {\sum{L\left ( y_i,f\left ( x_i,w \right ) \right ) + \lambda \Omega \left ( w \right )}} \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot (1)

很多文章在讲范数问题的时候都没有先把这个摆出来。

这样就是说要优化w,使左右两个项的和最小。

接下来就是如下的经典图形了(盗张图):

注意看横纵坐标是参数w的不同维度,这里就只是考了二维参数的情况。然后上图方形的图案就是w的L1范数的一个等势线,就是上述公式(1)的第二个项为L1范数的图。也可以表示为:

b=||A||_1\cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot (2)

的图像,这个b就是上图w1,w2取那个相交的黑点的函数值(一个常数)。

上图椭圆的图案就是公式(1)的第一个项的等势线。

为方便理解,下文将公式(1)的第一项说成实际误差项,第二项说成范数项。

对于很多博文说到的首次相交,为什么要额外考虑首次相交的位置呢?

可以从上面这个图分析一下;

这里假设上图红圈,粉红圈的等势线为实际误差项的等势线。且粉红圈的实际误差项的值小于红圈的实际误差项的值。

同样假设上图黑方框,灰方框的等势线为范数项的等势线。且灰方框的范数项的值小于黑方框的范数项的值。

现假设模型此刻学成了P1点(红圈和黑方框交点)的参数值,图中可以看出其实P2点(粉红圈和黑方框交点)和P3点(红圈和灰方框交点)可以使两项的和更小。因此之后再学习的话参数应该会变成P3或P2。

如果之后参数是P3,那么就和许多博文说的一样,W就更稀疏了,就更接近L0范数的表达了。

但如果之后参数是P2,W并没有更稀疏。

接下来看下什么时候会倾向往P3跑而不是往P2跑呢?

当然是P3的两项的和小于P2时。也就是说范数项的权重越大时,以至于接下来范数项下降带来的收益大于实际误差项下降带来的收益时。会倾向于往P3跑。也就是说\lambda约大,就越可能往P3跑,越可能出现W更稀疏的现象。极端考虑就是说\lambda为0时就不用考虑往坐标轴点跑的可能性了。

总的来说考虑首次相交是因为目标函数出现最小值的位置一定在首次相交的那些点上。

然后就是许多博文经常说的压缩感知中L0模型在一定条件下等价于L1模型的分析,这个一定条件是什么条件呢?

个人理解,在上述的二维图情况中,就是说实际误差项的等势线和坐标轴w2交点处的斜率大于-1,小于1时的情况。因为这样的话首次相交位置就一定在坐标轴上。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值