weight_decay 与L2 Loss

本文探讨了权重衰减(Weight Decay)的概念及其与L2范数正则化的等价性,解释了如何通过添加惩罚项来防止模型过拟合,特别是在线性回归模型中。文中还提到了在训练模型时遇到总损失波动大和正则化损失从高值下降的情况,可能是由于weight_decay设置过大,建议适当调整。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

复制粘贴的 https://www.cnblogs.com/xz824/p/10066685.html

权重衰减等价于L2范数正则化。正则化通过为模型损失函数添加惩罚项使得学习的模型参数值较小,是常用防止过拟合的常用手段
L2范数正则化是在模型原损失函数基础上添加L2范数惩罚项,其中L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。比如,对于线性回归损失函数:

weight decay是放在正则项(regularization)前面的一个系数


其中w1,w2w1,w2为权重参数,样本数为n, 将权重参数用向量w=[w1,w2]w=[w1,w2]表示,带有L2范数惩罚项的新的损失函数为

上式中L2范数的∥w∥2‖w‖2展开后得到 w21+w22w12+w22
 

有的时候训练模型,sum_loss总是在一个范围波动,并且很大,regularization loss从一个大值下降,很有可能是设置的weight_decay太大 ,尝试加几个零。

'''Next, define the trainer and the parameters used for training.''' class Trainer: def __init__(self,model,train_loader,val_loader=None,loss_function=l2loss,device=torch.device('cpu'), optimizer='Adam_amsgrad',lr=5e-4,weight_decay=0): self.opt_type=optimizer self.device=device self.model=model self.train_data=train_loader self.val_data=val_loader self.device=device self.opts={'AdamW':torch.optim.AdamW(self.model.parameters(),lr=lr,amsgrad=False,weight_decay=weight_decay), 'AdamW_amsgrad':torch.optim.AdamW(self.model.parameters(),lr=lr,amsgrad=True,weight_decay=weight_decay), 'Adam':torch.optim.Adam(self.model.parameters(),lr=lr,amsgrad=False,weight_decay=weight_decay), 'Adam_amsgrad':torch.optim.Adam(self.model.parameters(),lr=lr,amsgrad=True,weight_decay=weight_decay), 'Adadelta':torch.optim.Adadelta(self.model.parameters(),lr=lr,weight_decay=weight_decay), 'RMSprop':torch.optim.RMSprop(self.model.parameters(),lr=lr,weight_decay=weight_decay), 'SGD':torch.optim.SGD(self.model.parameters(),lr=lr,weight_decay=weight_decay) } self.optimizer=self.opts[self.opt_type] self.loss_function=loss_function self.step=-1 def train(self,num_train,targ,stop_loss=1e-8, val_per_train=50, print_per_epoch=10): self.model.train() len_train=len(self.train_data) for i in range(num_train): val_datas=iter(self.val_data) for j,batch in enumerate(self.train_data): self.step=self.step+1 torch.cuda.empty_cache() self.optimizer.zero_grad() out = self.model(pos=batch.pos.to(self.device), z=batch.z.to(self.device), batch=batch.batch.to(self.device)) target = batch[targ].to(self.device) 这个是源代码的一部分,请帮我修改完整后发给我
03-31
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值