L1和L2正则

L1和L2正则

L1正则常被用来进行特征选择,主要原因在于L1正则化会使得较多的参数为0,从而产生稀疏解,我们可以将0对应的特征遗弃,进而用来选择特征。一定程度上L1正则也可以防止模型过拟合。

 L2正则:

 

 L1损失函数相比于L2损失函数的鲁棒性更对异常值更不敏感。

参考资料:

L1和L2 详解(范数、损失函数、正则化) - 知乎 (zhihu.com)

l1正则与l2正则的特点是什么,各有什么优势? - 知乎 (zhihu.com)

### L1与L2正则化的定义及主要区别 #### 定义 L1正则化是指在损失函数中加入权重向量的L1范数作为惩罚项。这种正则化方式倾向于使部分权重变为零,从而实现特征选择的效果[^2]。 L2正则化则是指在损失函数中加入权重向量的L2范数平方作为惩罚项。这种方式会促使权重值趋向于较小数值,但通常不会完全为零,因此其作用在于防止过拟合并提高模型稳定性[^4]。 --- #### 主要区别 1. **稀疏性** L1正则化更容易获得稀疏解,即某些权重会被精确缩减至零,从而使对应的特征被自动排除在外。而L2正则化虽然也能减少权重大小,但它并不会将任何权重降为绝对意义上的零,而是使其趋近于零,因而不具备真正的稀疏效果。 2. **对异常值敏感程度** 由于L1正则基于绝对值计算,相比起依赖平方运算的L2正则而言,前者对于较大的权值变化更加鲁棒;后者因为涉及平方操作,在面对较大偏离时可能会放大这些偏差的影响[^1]。 3. **几何解释** 在高维空间下观察约束区域形状时发现:采用L1正则形成的边界呈现多面体形态(菱形或其他棱角分明图形),这样的结构更可能接触到坐标轴上的点——对应着某个特定方向上参数全为零的情形;相反地,应用L2正则产生的单位球表面较为圆润光滑,难以触及确切坐标的原点位置[^3]。 4. **适用场景** 如果目标数据集存在许多冗余或者无关紧要的输入变量,则推荐优先考虑使用L1方法来进行建模训练过程中的简化处理。而对于那些希望维持整体平稳表现且不存在明显孤立重要因子的数据集合来说,选用L2策略往往更为合适一些。 5. **优化特性** 加入L2正则后的二次型目标函数通常是严格凸的,有助于梯度下降算法更快收敛到全局最优解附近。然而当引入L1成分之后,尽管依旧保持局部最优点的存在唯一性,但由于非可微性质的缘故,寻找最终答案的过程或许变得稍微复杂一点。 --- ```python import torch from torch import nn, optim class Model(nn.Module): def __init__(self): super(Model, self).__init__() self.linear = nn.Linear(10, 1) def forward(self, x): return self.linear(x) def l1_regularization(model, lambda_l1=0.01): l1_loss = 0 for param in model.parameters(): l1_loss += torch.sum(torch.abs(param)) return lambda_l1 * l1_loss model = Model() criterion = nn.MSELoss() # Example of applying both regularizations during training loop for data, target in dataloader: output = model(data) loss = criterion(output, target) + l1_regularization(model) + (lambda_l2 / 2) * sum([torch.norm(p)**2 for p in model.parameters()]) optimizer.zero_grad() loss.backward() optimizer.step() ``` 上述代码展示了如何在PyTorch框架里手动添加L1L2正则化项到神经网络模型之中去执行相应的训练流程。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值