梯度弥散(Vanishing Gradient)和梯度爆炸(Exploding Gradient)是深度学习中常见的问题,特别是在训练深度神经网络时。它们会影响模型的训练效果和稳定性。
一、定义与原因
1. 梯度弥散(Vanishing Gradient)
定义:梯度弥散是指在反向传播过程中,梯度值逐渐变小,接近于零,导致网络的浅层参数几乎不更新,模型难以学习到输入数据的复杂特征。
原因:
- 深层网络:随着网络层数的增加,梯度在反向传播过程中需要通过多层网络,每层的梯度都会乘以一个权重和激活函数的导数。如果每层的梯度都小于1,经过多层传递后,梯度将趋近于零。
- 激活函数:使用Sigmoid或Tanh等激活函数时,当输入值很大或很小时,激活函数的导数接近于零。这会导致梯度在反向传播过程中逐层减小。
2. 梯度爆炸(Exploding Gradient)
定义:梯度爆炸是指在反向传播过程中,梯度值变得异常大,导致模型权重更新过度,参