梯度爆炸(Exploding Gradient Problem)
定义
梯度爆炸是指在深度神经网络的训练过程中,由于梯度的值在反向传播时不断累积,导致梯度变得非常大,以至于模型无法正常学习。这种现象在深层网络或循环神经网络(RNN)中尤为常见。
现象表现
- 权重更新不稳定:
- 梯度爆炸会导致模型的权重更新过大,甚至出现无意义的数值(如 NaN)。
- 损失函数波动剧烈:
- 损失值可能突然变得极大或无穷大,使训练过程失败。
- 模型训练卡死:
- 在极端情况下,训练过程可能会中断,无法继续。
数学解释
在神经网络中,反向传播计算梯度时,需要链式求导。对于一个 L 层的神经网络,权重的梯度为:
其中 是第