循环神经网络——裁剪梯度（应对梯度爆炸）

最新推荐文章于 2025-05-25 08:53:36 发布

然后就去远行吧

最新推荐文章于 2025-05-25 08:53:36 发布

阅读量647

点赞数 2

CC 4.0 BY-SA版权

分类专栏：循环神经网络和自然语言处理

本文链接：https://blog.youkuaiyun.com/qq_37388085/article/details/104382837

循环神经网络和自然语言处理专栏收录该内容

3 篇文章

订阅专栏

本文探讨了循环神经网络中常见的梯度衰减和梯度爆炸问题，介绍了如何通过梯度裁剪来控制梯度大小，确保训练过程稳定。通过设定阈值，当梯度的L2范数超过此阈值时，将梯度按比例缩放，避免了梯度爆炸。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

循环神经网络中比较容易出现梯度衰减或梯度爆炸，为了应对梯度爆炸，可以进行裁剪梯度。假设把所有模型参数梯度的元素拼接成一个向量g，并设裁剪的阈值是 $θ\theta$ 。裁剪后的梯度 $min(θ∣∣g∣∣,1)gmin(\frac{\theta}{||g||},1)g$ 的 $L_2$ 范数不超过 $θ\theta$ 。

通过代码进行演示：

def grad_clipping(params, theta)  #paras是模型参数，theta是阈值
    norm = 0
    for param in params:
        norm += (param ** 2).sum()
    norm = norm.sqrt()
    if norm > theta:
        for param in params:
            param *= theta/norm