李沐《动手学深度学习》 | 数值稳定性

最新推荐文章于 2025-11-25 12:59:39 发布

原创

最新推荐文章于 2025-11-25 12:59:39 发布 · 1.2k 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能

文章目录

数值稳定性

当神经网络的深度比较深时，非常容易数值不稳定。

不稳定梯度是指神经网络反向传播过程中，梯度出现极端数值的现象。

假设有一个d层的神经网络，每一层的变化定义为 $f_t$ ，该变换的权重参数为 $W^{(t)}$ ，将第t-1层的输出 $h^{t-1}$ 作为输入传到第t层 $f_t$ 得到第t层的输出 $h^t = f_t(h^{t-1})$ 。

计算损失关于参数 $W_t$ 的梯度，从第d层反向传播到第t层会进行d-t次的矩阵乘法，会带来两个常见的问题①梯度爆炸 ②梯度消失

梯度消失

梯度消失：参数更新过小，在每次更新时几乎不会移动，导致模型无法学习。

若每层的局部梯度 $∣\frac{∂h^d}{∂h^{d-1}}∣<1$ ，梯度会指数级衰减。

梯度消失的问题

底层参数几乎不更新： $Δ w \approx 0$
训练停滞：损失函数长期不下降，不管如何选择学习了率
底层无法学习有效特征，仅顶部层训练较好，无法让神经网络更深。

梯度反向传播从顶部开始往底部传，传到后面梯度越来越小，学习效果越来越差。

Sigmoid作为激活函数

$\sigma(x)=\frac{1}{1+e^{-x}}，\sigma'(x)=\sigma(x)(1-\sigma(x))$

案例说明

对于第 $l$ 层的前向传播流程

接收输入： $z^{[l−1]}$
线性变换： $a^{[l]}=W^{[l]}z^{[l−1]}+b^{[l]}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。