L2Decay

本文介绍了PaddlePaddle库中的L2Decay类,用于实现L2权重衰减正则化,以防止模型过拟合。通过设置在optimizer或ParamAttr中,可以对模型参数应用正则化。示例代码展示了如何在Momentum优化器中设置L2Decay,并在特定网络层中应用正则化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2021SC@SDUSC

paddle.regularizer. L2Decay ( coeff=0.0 )

参数:

coeff (float) – 正则化系数,默认值为0.0

L2Decay实现L2权重衰减正则化,用于模型训练,有助于防止模型对训练数据过拟合。

该类生成的实例对象,需要设置在 cn_api_paddle_ParamAttr 或者 optimizer (例如 Momentum )中,在 ParamAttr 中设置时, 只对该网络层中的参数生效;在 optimizer 中设置时,会对所有的参数生效;如果同时设置, 在 ParamAttr 中设置的优先级会高于在 optimizer 中设置,即,对于一个可训练的参数,如果在 ParamAttr 中定义了正则化,那么会忽略 optimizer 中的正则化;否则会使用"optimizer"中的 正则化。

具体实现中,L2权重衰减正则化的损失函数计算如下:
loss=0.5∗coeff∗reduce_sum(square(x))

Example1:

# Example1: set Regularizer in optimizer

```python
import paddle
from paddle.regularizer import L2Decay
import numpy as np
linear = paddle.nn.Linear(10, 10)
inp = paddle.rand(shape=[10, 10], dtype="float32")
out = linear(inp)
loss = paddle.mean(out)
beta1 = paddle.to_tensor([0.9], dtype="float32")
beta2 = paddle.to_tensor([0.99], dtype="float32")
momentum = paddle.optimizer.Momentum(
    learning_rate=0.1,
    parameters=linear.parameters(),
    weight_decay=L2Decay(0.0001))
back = out.backward()
momentum.step()
momentum.clear_grad()
Example2:

```python
# Example2: set Regularizer in parameters
# Set L2 regularization in parameters.
# Global regularizer does not take effect on my_conv2d for this case.
from paddle.nn import Conv2D
from paddle import ParamAttr
from paddle.regularizer import L2Decay

my_conv2d = Conv2D(
        in_channels=10,
        out_channels=10,
        kernel_size=1,
        stride=1,
        padding=0,
        weight_attr=ParamAttr(regularizer=L2Decay(coeff=0.01)),
        bias_attr=False)
### Weight Decay 正则化与 L2 正则化的等效性 在机器学习领域,Weight Decay 和 L2 正则化通常被认为是数学上等价的概念。两者都旨在通过引入额外的惩罚项来控制模型参数的大小,从而减少过拟合的风险。 #### 数学表达形式 当应用 L2 正则化时,会在损失函数中增加一个关于权重平方和的惩罚项: \[ J(\theta) = Loss(y, \hat{y}) + \frac{\lambda}{2} \sum_{i=1}^{N} w_i^2 \] 其中 \(Loss\) 表示原始损失函数,\(w_i\) 是第 i 个权重参数,而 \(\lambda\) 则是正则化系数[^3]。 相比之下,采用 Weight Decay 方法时,优化过程中直接对权重施加衰减操作,而不是改变损失函数的形式。具体来说,在每次迭代结束时,权重会被乘以一个小于 1 的因子,使得它们逐渐趋近零。这种做法实际上相当于隐式地实现了上述公式中的第二部分——即对大值权重给予更大程度上的削减[^5]。 因此,尽管实现方式略有区别,但从最终效果上看,这两种技术确实达到了相同的目的:抑制过大权重的增长并促进更平滑、更具泛化性的解。 值得注意的是,在某些框架下(比如 PyTorch),`AdamW` 这样的优化器允许单独设置 weight decay 参数而不影响其他梯度更新逻辑,这进一步证明了二者之间的紧密联系以及可互换使用的性质。 ```python import torch.optim as optim optimizer = optim.AdamW(model.parameters(), lr=learning_rate, weight_decay=lambda_value) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值