


梯度爆炸指的是在反向传播过程中,梯度值(即损失函数对参数的偏导数)变得异常大,导致参数更新的步长过大,模型无法收敛。
scaling后进行softmax操作可以使得输入的数据的分布变得更好,你可以想象下softmax的公式,数值会进入敏感区间,防止梯度消失,让模型能够更容易训练。




梯度爆炸指的是在反向传播过程中,梯度值(即损失函数对参数的偏导数)变得异常大,导致参数更新的步长过大,模型无法收敛。
scaling后进行softmax操作可以使得输入的数据的分布变得更好,你可以想象下softmax的公式,数值会进入敏感区间,防止梯度消失,让模型能够更容易训练。

您可能感兴趣的与本文相关的镜像
Yolo-v8.3
YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎
9911

被折叠的 条评论
为什么被折叠?