深度学习笔记:多个视角对L1 L2正则化的理解

1. KKT优化视角:最小化损失函数 + 正则项 ≡ 受不等式约束的最优化(KKT)

设监督学习损失为 L(w)\mathcal{L}(w)L(w),加上正则项:

  • L2 正则化
    min⁡w L(w)+λ2∥w∥22 \min_{w}\ \mathcal L(w) + \frac{\lambda}{2} \|w\|_2^2 wmin L(w)+2λw22

  • L1 正则化
    min⁡w L(w)+λ∥w∥1 \min_{w}\ \mathcal L(w) + \lambda \|w\|_1 wmin L(w)+λw1

L2的例子

以平方误差为例,构造拉格朗日函数求梯度:
min⁡w 12∥y−Xw∥22s.t.∥w∥22≤c \min_{w}\ \frac{1}{2}\|y-Xw\|_2^2 \quad \text{s.t.} \quad \|w\|_2^2 \le c wmin 21yXw22s.t.w22c
拉格朗日函数:
L(w,λ)=12∥y−Xw∥22+λ2(∥w∥22−c),λ≥0 \mathcal L(w,\lambda)=\frac{1}{2}\|y-Xw\|_2^2+\frac{\lambda}{2}(\|w\|_2^2-c) ,\quad \lambda \ge 0 L(w,λ)=21yXw22+2λ(w22c),λ0
求梯度并令其为 0,整理得:
(X⊤X+λI)w=X⊤y (X^\top X + \lambda I)w = X^\top y (XX+λI)w=Xy

⇒w∗=(X⊤X+λI)−1X⊤y ⇒ w^* = (X^{\top} X + \lambda I)^{-1} X^{\top} y w=(XX+λI)1Xy

可以发现,L2正则化下权重被均匀缩小,且不会变成 0

L1的例子

推导过程省略,由于 ∣w∣∣w∣w 在 0 点不可导,我们使用次梯度形式的KKT条件:

wi≠0w_i \neq 0wi=0
(X⊤(y−Xw))i=λ sign(wi) (X^\top (y - Xw))_i = \lambda\ \text{sign}(w_i) (X(yXw))i=λ sign(wi)

  • 损失的梯度大小恰好抵消 L1 正则的惩罚力,该特征对优化有足够贡献故保留

wi=0w_i = 0wi=0
∣(X⊤(y−Xw))i∣≤λ |(X^\top (y - Xw))_i| \le \lambda (X(yXw))iλ

  • 当某个权重为 0 时,只要损失函数对它的梯度没有超出λ\lambdaλ,就会被锁在 0

因此 L1 会选择特征,让模型更稀疏,贡献小的特征变为0。


2. 贝叶斯视角:最大后验估计(MAP)

最小化负MAP:
min⁡w−log⁡p(y∣X,w)−log⁡p(w) \min_w -\log p(y|X,w) - \log p(w) wminlogp(yX,w)logp(w)

L2 ≡ 先验高斯分布的MAP

假设权重服从高斯分布,概率密度(取对数,取负数,去常数):
w∼N(0,σ2I)⇒−log⁡p(w)∝12σ2∥w∥22 w \sim \mathcal N(0,\sigma^2I) \Rightarrow -\log p(w) \propto \frac{1}{2\sigma^2}\|w\|_2^2 wN(0,σ2I)logp(w)2σ21w22
回代MAP:
min⁡w −log⁡p(y∣X,w)+λ2∥w∥22 \min_{w}\ -\log p(y|X,w) + \frac{\lambda}{2} \|w\|_2^2 wmin logp(yX,w)+2λw22
其中:
λ=1σ2 \lambda=\frac{1}{\sigma^2} λ=σ21
发现这就是L2正则化。

同时可以由高斯分布先验的特点推出:

L2正则化,平滑收缩,不稀疏。

L1 ≡ 先验拉普拉斯分布的MAP

假设权重服从拉普拉斯分布,概率密度:
w∼Laplace(0,b)⇒−log⁡p(w)∝1b∥w∥1 w \sim Laplace(0,b) \Rightarrow- \log p(w) \propto \frac{1}{b}\|w\|_1 wLaplace(0,b)logp(w)b1w1
回代MAP:
min⁡w −log⁡p(y∣X,w)+λ∥w∥1 \min_{w}\ -\log p(y|X,w) + \lambda \|w\|_1 wmin logp(yX,w)+λw1
其中:
λ=1b \lambda=\frac{1}{b} λ=b1
发现这就是L1正则化。

同时可以由拉普拉斯分布先验的特点观察出:

峰尖,尾厚,很多权重=0

可以看图(来自BV1aE411L7sj):

总的来说:

L1和L2正则化就是不同分布先验下的最大后验估计


3. 解空间几何视角:可行域形状决定稀疏性

假设最小化 L(w)\mathcal{L}(w)L(w) 时,等损失线是椭圆。

(图片来自BV1Z44y147xA)

方法约束形状结果
L2球形 ∥w∥2≤r\|w\|_2\le rw2r切点平滑 → 非零系数更常见
L1菱形 ∥w∥1≤r\|w\|_1\le rw1r尖角落在坐标轴上 → 易出现 wi=0w_i=0wi=0

4. 梯度下降视角:权重衰减(Weight Decay)

SGD+L2 正则化:

SGD更新:
w=w−η(∇L+λw)=(1−λη) w−η∇L w = w-\eta(\nabla \mathcal L + \lambda w) =(1 - \lambda\eta)\,w - \eta\nabla \mathcal L w=wη(L+λw)=(1λη)wηL

每步按比例缩,一直都在将权重试图缩小到 0 ,这也是为什么L2正则化(SGD)被叫为权重衰减

注意:非SGD不等价,因为Adam这种自适应优化器会把梯度也缩放,把正则项的梯度破坏了,而SGD是每次按比例衰减,所以必须要解耦,用AdamW

L1 正则梯度(次梯度):

λ⋅sign(w) \lambda\cdot \text{sign}(w) λsign(w)

不管权重大小,常数地将权重推向 0,很小时也这样,所以作用是稀疏化而不是衰减


5. 模型复杂度视角:降低复杂度,防止过拟合

方法对模型复杂度的影响特点
L2连续降低复杂度,对大权重大,小权重小,不挑特征稳定,平滑,抑制过拟合
L1直接减少维度(把权重直接变成0)可解释性高,特征选择,稀疏化

6. 实践

场景推荐
高维 & 要解释性L1(特征选择)
特征高度相关L2
深度学习L2(AdamW)+ 早停

(由chatgpt5辅助整理)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值