梯度弥散和梯度爆炸

最新推荐文章于 2024-09-06 13:34:16 发布

原创最新推荐文章于 2024-09-06 13:34:16 发布 · 4k 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#梯度弥散和梯度爆炸

深度学习算法专栏收录该内容

5 篇文章

订阅专栏

文章目录

1. 什么是梯度弥散和梯度爆炸（发生原因）

梯度弥散：由于导数的链式法则，连续多层小于1的梯度相乘会使梯度越来越小，最终导致某层梯度为0。
梯度爆炸：由于导数的链式法则，连续多层大于1的梯度相乘会使梯度越来越大，最终导致梯度太大的问题。

2. 梯度弥散和梯度爆炸会造成什么影响

梯度弥散会使得网络前几层的参数不再更新，最终导致模型的性能很差
梯度爆炸会使得某层的参数w过大，造成网络不稳定，极端情况下，数据数据乘以一个大w发生溢出，得到NAN值。

3. 如何解决梯度弥散和梯度爆炸问题

梯度爆炸：
- 用梯度截断方法，即当梯度超过一个阈值时，让他变小点，例如Gradient Clip 。
- 权重正则化方法（on the difficulity of training rnn,2013）
- 从rnn ->lstm
- 使用relu激活函数，梯度为1
梯度弥散：
- 采用BN算法
- 改变激活函数

4. 如何判断训练中发生了梯度爆炸和梯度弥散

梯度爆炸：
- 模型不稳定，训练损失显著变化
- 模型损失变成NAN
- 梯度快速增大
- 每个节点的和层的误差梯度都超过1
梯度弥散：
- 前几层的网络参数不更新
- 梯度很接近0

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。