目录
数值稳定性
神经网络的梯度
考虑如下有d层的神经网络
计算损失l关于参数Wt的梯度
数值稳定性的常见两个问题
梯度消失 和 梯度爆炸
例子: MLP
加入如下MLP(为了简单省略了偏移)
梯度爆炸
使用ReLU作为激活函数。
梯度爆炸的问题
- 值超出值域(infinity)
对于16位浮点数尤为严重(数值区间6e-5 - 6e4)。
- 对学习率敏感
如果学习率太大 -> 大参数值 -> 更大的梯度。
如果学习率太小 -> 训练无进展。
我们可能需要在训练过程不断调整学习率。
梯度消失
使用sigmoid作为激活函数