系列博客目录
L2 正则化 是一种常见的正则化方法,通常用于机器学习和深度学习模型中,以防止模型过拟合。L2 正则化的基本思想是在损失函数中添加一个项,该项是所有模型参数的平方和,从而鼓励模型参数较小,避免参数过大带来的过拟合风险。
L2 正则化的数学定义
假设模型的损失函数为 L ( θ ) L(\theta) L(θ),其中 θ \theta θ 是模型的参数。L2 正则化会将损失函数改为:
L reg ( θ ) = L ( θ ) + λ ∑ i θ i 2 L_{\text{reg}}(\theta) = L(\theta) + \lambda \sum_{i} \theta_i^2 Lreg(θ)=L(θ)+λ∑iθi2
其中:
- λ \lambda λ 是正则化系数(也叫超参数),用于控制正则化的强度。
- θ i \theta_i θi 是模型的第 i i i 个参数。
- ∑ i θ i 2 \sum_{i} \theta_i^2 ∑iθi2 是所有参数的平方和,也被称为参数的 L2 范数(或欧几里得范数)的平方。
通过添加这项,优化算法在训练时会尝试让参数值尽可能小,以减少模型复杂度,增强模型的泛化能力。
简单计算示例
假设我们有一个简单的线性回归模型,其损失函数为均方误差(MSE):
L ( θ ) = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 L(\theta) = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 L(θ)=n1i=1∑n(yi−y^i)2
假设模型有两个参数 (\theta_1) 和 (\theta_2),且它们的当前值分别为 3 和 4。为了避免模型过拟合,我们加入 L2 正则化项,(\lambda) 设为 0.1。则正则化后的损失函数为:
L reg ( θ ) = L ( θ ) + λ ( θ 1 2 + θ 2 2 ) L_{\text{reg}}(\theta) = L(\theta) + \lambda (\theta_1^2 + \theta_2^2) Lreg(θ)=L(θ)+λ(θ12+θ22)
假设在当前参数下,均方误差 (L(\theta)) 计算结果为 2.5。
那么正则化后的损失为:
L
reg
(
θ
)
=
2.5
+
0.1
×
(
3
2
+
4
2
)
L_{\text{reg}}(\theta) = 2.5 + 0.1 \times (3^2 + 4^2)
Lreg(θ)=2.5+0.1×(32+42)
=
2.5
+
0.1
×
(
9
+
16
)
= 2.5 + 0.1 \times (9 + 16)
=2.5+0.1×(9+16)
=
2.5
+
0.1
×
25
= 2.5 + 0.1 \times 25
=2.5+0.1×25
=
2.5
+
2.5
=
5.0
= 2.5 + 2.5 = 5.0
=2.5+2.5=5.0
因此,加入 L2 正则化后,损失从 2.5 增加到了 5.0,这会使得优化算法在训练时倾向于减少 θ 1 \theta_1 θ1 和 θ 2 \theta_2 θ2 的值,以减小正则化项的影响,从而避免参数变得过大,有助于提升模型的泛化能力。
5898

被折叠的 条评论
为什么被折叠?



