pytorch梯度裁剪：clip_grad_norm

最新推荐文章于 2025-04-23 08:39:42 发布

奔跑的云彩

最新推荐文章于 2025-04-23 08:39:42 发布

阅读量2.3k

点赞数 3

文章标签： pytorch

本文链接：https://blog.youkuaiyun.com/zhangyupeng66/article/details/121237212

版权

在深度学习中，梯度消失和梯度爆炸是常见问题，PyTorch的torch.nn.utils.clip_grad_norm_函数提供了一种解决方案。该函数通过设定最大范数限制梯度，防止其过大或过小。参数包括参数列表、最大范数和范数类型，默认为L2范数。这种方法简单直接，但寻找合适的阈值是个挑战。使用此函数可以帮助稳定模型训练，提高长时记忆的更新效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

torch.nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)

在BP过程中会产生梯度消失/爆炸（就是偏导无限接近0，导致长时记忆无法更新），那么最简单粗暴的方法，设定阈值，当梯度小于/大于阈值时，更新的梯度为阈值.

优点：简单粗暴
缺点：很难找到满意的阈值

nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)
这个函数是根据参数的范数来衡量的
Parameters:
parameters (Iterable[Variable]) – 一个基于变量的迭代器，会进行归一化（原文：an iterable of Variables that will have gradients normalized）
max_norm (float or int) – 梯度的最大范数（原文：max norm of the gradients）
norm_type(float or int) – 规定范数的类型，默认为L2（原文：type of the used p-norm. Can be’inf’for infinity norm）
Returns:参数的总体范数（作为单个向量来看）（原文：Total norm of the parameters (viewed as a single vector).）