L2 正则化对高阶项权重 “惩罚更大”,核心是结合 L2 惩罚项的数学特性与高阶项在模型中的固有风险—— 二者共同作用,让高阶项的大权重会触发远大于低阶项的惩罚力度,最终迫使高阶项权重更显著地缩小。
一、前提
先明确前提:高阶项的 “风险权重” 本就更容易变大。在多项式回归(如 y = θ 0 + θ 1 x + θ 2 x 2 + θ 3 x 3 y = \theta_0 + \theta_1 x + \theta_2 x^2 + \theta_3 x^3 y=θ0+θ1x+θ2x2+θ3x3 )中,高阶项(如 x 2 , x 3 x^2,x^3 x2,x3)对输出的 “影响敏感度” 远高于低阶项:
- 低阶项(如 x x x):输入 x = 1 x = 1 x=1 时,输出仅变化 θ 1 \theta_1 θ1;
- 高阶项(如 x 3 x^3 x3):输入 x = 2 x = 2 x=2 时, x 3 = 8 x^3=8 x3=8,此时 θ 3 \theta_3 θ3 哪怕仅增大 0.1 0.1 0.1,输出就会增加 0.1 × 8 = 0.8 0.1×8=0.8 0.1×8=0.8,远大于低阶项的影响。
为了拟合训练数据中的细节(甚至噪声),模型容易 “不自觉” 地让高阶项的权重变得更大(比低阶项权重大得多)—— 而这正是过拟合的核心原因。
二、L2 惩罚项的特性
L2 惩罚项的 “平方特性”:放大对大权重的惩罚。L2 正则化的惩罚项是 权重的平方和( 1 2 λ ∑ θ i 2 \frac{1}{2} \lambda \sum \theta_i^2 21λ∑θi2),其关键特性是:惩罚力度与权重的平方成正比,权重越大,惩罚增长得越快(非线性放大)。
我们通过一个具体例子对比低阶项与高阶项的惩罚差异:正则化强度 λ = 0.1 λ=0.1 λ=0.1:
- 低阶项权重=1,低阶项的 L2 惩罚: 0.5 × 0.1 × 12 = 0.05 0.5×0.1×12=0.05 0.5×0.1×12=0.05;
- 高阶项权重=5(符合高阶项权重易变大的特点),高阶项的 L2 惩罚: 0.5 × 0.1 × 52 = 1.25 0.5×0.1×52=1.25 0.5×0.1×52=1.25。
可见:高阶项权重(5)的惩罚(1.25)是低阶项权重(1)惩罚(0.05)的 25 倍——L2 的平方特性直接将高阶项 “过大的权重” 转化为 “远大于低阶项的惩罚”。
三、梯度下降视角
梯度下降视角:高阶项权重的 “衰减压力” 更大。从优化过程(梯度下降)来看,L2 正则化会给高阶项权重施加更强的 “压缩力”,具体可通过权重更新公式验证:
回顾 L2 正则化下,权重的更新公式(学习率
η
η
η):
θ
j
n
e
w
=
θ
j
o
l
d
×
(
1
−
η
λ
)
−
η
×
r
a
w
l
o
s
s
g
r
a
d
i
e
n
t
\theta_j^{new} = \theta_j^{old} \times (1 - \eta \lambda) - \eta \times {raw loss gradient}
θjnew=θjold×(1−ηλ)−η×rawlossgradient
其中, 1 − η λ 1 - \eta \lambda 1−ηλ 是 “权重衰减系数”(始终小于 1 1 1,如 0.95 0.95 0.95),作用是每次更新时先将权重 “按比例缩小”。
对高阶项和低阶项分别代入:
- 低阶项(=1):每次更新先衰减为 1 × 0.95 = 0.95 1×0.95=0.95 1×0.95=0.95,衰减量为 0.05 0.05 0.05;
- 高阶项(=5):每次更新先衰减为 5 × 0.95 = 4.75 5×0.95=4.75 5×0.95=4.75,衰减量为 0.25 0.25 0.25。
显然,高阶项权重的 “绝对衰减量” 是低阶项的 5 倍—— 即使原始损失梯度要求权重增大,L2 的衰减压力也会优先压制高阶项的大权重,迫使它更快地缩小。
四、总结
总结:L2 对高阶项惩罚更大的本质。L2 正则化并非 “主动针对高阶项”,而是其平方惩罚特性与高阶项权重易变大的固有风险形成了 “共振”:
- 高阶项因对输出影响更敏感,权重更容易在训练中变大;
- L2 的平方惩罚会 “非线性放大” 大权重的惩罚力度,让高阶项的大权重触发远大于低阶项的惩罚;
- 梯度下降中,高阶项权重的 “衰减量” 也更大,最终被更显著地压缩。
这一过程最终表现为:L2 正则化对高阶项权重的惩罚远大于低阶项,从而有效抑制高阶项导致的过拟合。
715

被折叠的 条评论
为什么被折叠?



