L2正则化对权重的影响

最新推荐文章于 2025-12-03 17:31:48 发布

原创最新推荐文章于 2025-12-03 17:31:48 发布 · 730 阅读

·

22

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #L2正则化

人工智能专栏收录该内容

16 篇文章

订阅专栏

目录

一、前提
二、L2 惩罚项的特性
三、梯度下降视角
四、总结

L2 正则化对高阶项权重 “惩罚更大”，核心是结合 L2 惩罚项的数学特性与高阶项在模型中的固有风险—— 二者共同作用，让高阶项的大权重会触发远大于低阶项的惩罚力度，最终迫使高阶项权重更显著地缩小。

一、前提

先明确前提：高阶项的 “风险权重” 本就更容易变大。在多项式回归（如 $\theta_0 + \theta_1 x + \theta_2 x^2 + \theta_3 x^3$ ）中，高阶项（如 $x^2,x^3$ ）对输出的 “影响敏感度” 远高于低阶项：

低阶项（如 $x$ ）：输入 $x = 1$ 时，输出仅变化 $\theta_1$ ；
高阶项（如 $x^3$ ）：输入 $x = 2$ 时， $x^3=8$ ，此时 $\theta_3$ 哪怕仅增大 $0.1$ ，输出就会增加 $0.1 \times 8 = 0.8$ ，远大于低阶项的影响。

为了拟合训练数据中的细节（甚至噪声），模型容易 “不自觉” 地让高阶项的权重变得更大（比低阶项权重大得多）—— 而这正是过拟合的核心原因。

二、L2 惩罚项的特性

L2 惩罚项的 “平方特性”：放大对大权重的惩罚。L2 正则化的惩罚项是 权重的平方和（ $\frac{1}{2} \lambda \sum \theta_i^2$ ），其关键特性是：惩罚力度与权重的平方成正比，权重越大，惩罚增长得越快（非线性放大）。

我们通过一个具体例子对比低阶项与高阶项的惩罚差异：正则化强度 $λ = 0.1$ ：

低阶项权重=1，低阶项的 L2 惩罚： $0.5 \times 0.1 \times 12 = 0.05$ ；
高阶项权重=5（符合高阶项权重易变大的特点），高阶项的 L2 惩罚： $0.5 \times 0.1 \times 52 = 1.25$ 。

可见：高阶项权重（5）的惩罚（1.25）是低阶项权重（1）惩罚（0.05）的 25 倍——L2 的平方特性直接将高阶项 “过大的权重” 转化为 “远大于低阶项的惩罚”。

三、梯度下降视角

梯度下降视角：高阶项权重的 “衰减压力” 更大。从优化过程（梯度下降）来看，L2 正则化会给高阶项权重施加更强的 “压缩力”，具体可通过权重更新公式验证：

回顾 L2 正则化下，权重的更新公式（学习率 $η$ ）：
$\theta_j^{new} = \theta_j^{old} \times (1 - \eta \lambda) - \eta \times {raw loss gradient}$

其中， $\eta \lambda$ 是 “权重衰减系数”（始终小于 $1$ ，如 $0.95$ ），作用是每次更新时先将权重 “按比例缩小”。

对高阶项和低阶项分别代入：

低阶项（=1）：每次更新先衰减为 $1 \times 0.95 = 0.95$ ，衰减量为 $0.05$ ；
高阶项（=5）：每次更新先衰减为 $5 \times 0.95 = 4.75$ ，衰减量为 $0.25$ 。

显然，高阶项权重的 “绝对衰减量” 是低阶项的 5 倍—— 即使原始损失梯度要求权重增大，L2 的衰减压力也会优先压制高阶项的大权重，迫使它更快地缩小。

四、总结

总结：L2 对高阶项惩罚更大的本质。L2 正则化并非 “主动针对高阶项”，而是其平方惩罚特性与高阶项权重易变大的固有风险形成了 “共振”：

高阶项因对输出影响更敏感，权重更容易在训练中变大；
L2 的平方惩罚会 “非线性放大” 大权重的惩罚力度，让高阶项的大权重触发远大于低阶项的惩罚；
梯度下降中，高阶项权重的 “衰减量” 也更大，最终被更显著地压缩。

这一过程最终表现为：L2 正则化对高阶项权重的惩罚远大于低阶项，从而有效抑制高阶项导致的过拟合。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。