
t:层
:第t-1层隐藏层的输出
y:要优化的目标函数
这里的h都是一些向量,向量关于向量的导数是一个矩阵,这里做了太多的矩阵乘法,就容易导致梯度爆炸和梯度消失的问题。






因此我们既要避免梯度太大,也要避免梯度太小

归一化:比如说把梯度变为一个均值为0,方差为1的数(把过大的值拉回来)
梯度裁剪:比如说梯度大于5,就变成5,即把梯度限制在一定范围内

个人理解:为了将输出和梯度限定在一定范围内,我们从权重初始化和激活函数的选择入手,通过一系列的公式推到,得出不同情况下该怎样进行优化以达到我们的目的




本文讨论了深度学习中常见的梯度问题——梯度爆炸与梯度消失,并介绍了两种解决方法:归一化和梯度裁剪。归一化有助于将梯度调整到标准正态分布,而梯度裁剪则限制梯度的大小,确保训练过程稳定。
1825

被折叠的 条评论
为什么被折叠?



