梯度裁剪:torch.nn.utils.clip_grad_norm_详解

文章介绍了在训练FCOS算法时遇到的loss为NaN问题,通过使用torch.nn.utils.clip_grad_norm_函数进行梯度裁剪来预防梯度爆炸。该方法通过调整max_norm和norm_type参数,限制梯度的范数,确保训练过程稳定。

梯度裁剪是为了防止梯度爆炸。在训练FCOS算法时,因为训练过程出现了损失为NaN的情况,在github issue有很多都是这种训练过程出现loss为NaN,使用torch.nn.utils.clip_grad_norm_梯度裁剪函数,可以有效预防梯度爆炸的情况发生。

1 clip_grad_norm_介绍

1.1 函数原型

def clip_grad_norm_(
        parameters: _tensor_or_tensors, max_norm: float, norm_type: float = 2.0,
        error_if_nonfinite: bool = False, foreach: Optional[bool] = None) -> torch.Tensor:
  • parameters:需要进行梯度裁剪的参数列表。通常是模型的参数列表,即model.parameters()
  • max_norm:可以理解为梯度(默认是L2 范数)范数的最大阈值
  • norm_type:可以理解为指定范数的类型,比如norm_type=1 表示使用L1 范数,norm_type=2 表示使用L2 范数。

这个梯度裁剪函数一般来说只需要调整max_normnorm_type这两个参数。clip_grad_norm_最后就是对所有的梯度乘以一个clip_coef,而且乘的前提是clip_coef一定是小于1的,所以,按照这个情况:clip_grad_norm只解决梯度爆炸问题,不解决梯度消失问题

torch.nn.

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

源启智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值