L2正则化对权重的影响

L2 正则化对高阶项权重 “惩罚更大”,核心是结合 L2 惩罚项的数学特性与高阶项在模型中的固有风险—— 二者共同作用,让高阶项的大权重会触发远大于低阶项的惩罚力度,最终迫使高阶项权重更显著地缩小。

一、前提

先明确前提:高阶项的 “风险权重” 本就更容易变大。在多项式回归(如 y = θ 0 + θ 1 x + θ 2 x 2 + θ 3 x 3 y = \theta_0 + \theta_1 x + \theta_2 x^2 + \theta_3 x^3 y=θ0+θ1x+θ2x2+θ3x3 )中,高阶项(如 x 2 , x 3 x^2,x^3 x2,x3)对输出的 “影响敏感度” 远高于低阶项

  • 低阶项(如 x x x):输入 x = 1 x = 1 x=1 时,输出仅变化 θ 1 \theta_1 θ1​;
  • 高阶项(如 x 3 x^3 x3):输入 x = 2 x = 2 x=2 时, x 3 = 8 x^3=8 x3=8,此时 θ 3 \theta_3 θ3​ 哪怕仅增大 0.1 0.1 0.1,输出就会增加 0.1 × 8 = 0.8 0.1×8=0.8 0.1×8=0.8,远大于低阶项的影响。

为了拟合训练数据中的细节(甚至噪声),模型容易 “不自觉” 地让高阶项的权重变得更大(比低阶项权重大得多)—— 而这正是过拟合的核心原因。

二、L2 惩罚项的特性

L2 惩罚项的 “平方特性”:放大对大权重的惩罚。L2 正则化的惩罚项是 权重的平方和 1 2 λ ∑ θ i 2 \frac{1}{2} \lambda \sum \theta_i^2 21λθi2),其关键特性是:惩罚力度与权重的平方成正比,权重越大,惩罚增长得越快(非线性放大)

我们通过一个具体例子对比低阶项与高阶项的惩罚差异:正则化强度 λ = 0.1 λ=0.1 λ=0.1

  • 低阶项权重=1,低阶项的 L2 惩罚: 0.5 × 0.1 × 12 = 0.05 0.5×0.1×12=0.05 0.5×0.1×12=0.05
  • 高阶项权重​=5(符合高阶项权重易变大的特点),高阶项的 L2 惩罚: 0.5 × 0.1 × 52 = 1.25 0.5×0.1×52=1.25 0.5×0.1×52=1.25

可见:高阶项权重(5)的惩罚(1.25)是低阶项权重(1)惩罚(0.05)的 25 倍——L2 的平方特性直接将高阶项 “过大的权重” 转化为 “远大于低阶项的惩罚”。

三、梯度下降视角

梯度下降视角:高阶项权重的 “衰减压力” 更大。从优化过程(梯度下降)来看,L2 正则化会给高阶项权重施加更强的 “压缩力”,具体可通过权重更新公式验证:

回顾 L2 正则化下,权重的更新公式(学习率 η η η):
θ j n e w = θ j o l d × ( 1 − η λ ) − η × r a w l o s s g r a d i e n t \theta_j^{new} = \theta_j^{old} \times (1 - \eta \lambda) - \eta \times {raw loss gradient} θjnew=θjold×(1ηλ)η×rawlossgradient

其中, 1 − η λ 1 - \eta \lambda 1ηλ 是 “权重衰减系数”(始终小于 1 1 1,如 0.95 0.95 0.95),作用是每次更新时先将权重 “按比例缩小”。

对高阶项和低阶项分别代入:

  • 低阶项(​=1):每次更新先衰减为 1 × 0.95 = 0.95 1×0.95=0.95 1×0.95=0.95,衰减量为 0.05 0.05 0.05
  • 高阶项(​=5):每次更新先衰减为 5 × 0.95 = 4.75 5×0.95=4.75 5×0.95=4.75,衰减量为 0.25 0.25 0.25

显然,高阶项权重的 “绝对衰减量” 是低阶项的 5 倍—— 即使原始损失梯度要求权重增大,L2 的衰减压力也会优先压制高阶项的大权重,迫使它更快地缩小。

四、总结

总结:L2 对高阶项惩罚更大的本质。L2 正则化并非 “主动针对高阶项”,而是其平方惩罚特性高阶项权重易变大的固有风险形成了 “共振”:

  1. 高阶项因对输出影响更敏感,权重更容易在训练中变大;
  2. L2 的平方惩罚会 “非线性放大” 大权重的惩罚力度,让高阶项的大权重触发远大于低阶项的惩罚;
  3. 梯度下降中,高阶项权重的 “衰减量” 也更大,最终被更显著地压缩。

这一过程最终表现为:L2 正则化对高阶项权重的惩罚远大于低阶项,从而有效抑制高阶项导致的过拟合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值