梯度爆炸指的是在反向传播过程中,梯度值(即损失函数对参数的偏导数)变得异常大,导致参数更新的步长过大,模型无法收敛。
scaling后进行softmax操作可以使得输入的数据的分布变得更好,你可以想象下softmax的公式,数值会进入敏感区间,防止梯度消失,让模型能够更容易训练。
梯度爆炸指的是在反向传播过程中,梯度值(即损失函数对参数的偏导数)变得异常大,导致参数更新的步长过大,模型无法收敛。
scaling后进行softmax操作可以使得输入的数据的分布变得更好,你可以想象下softmax的公式,数值会进入敏感区间,防止梯度消失,让模型能够更容易训练。