梯度消失、爆炸原因及其解决方法

最新推荐文章于 2025-04-06 20:23:26 发布

秋水墨色

最新推荐文章于 2025-04-06 20:23:26 发布

阅读量405

点赞数

分类专栏：计算机视觉（OCR+目标检测+目标跟踪）+（优化+部署）文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sdw5723118/article/details/120055206

版权

计算机视觉（OCR+目标检测+目标跟踪）+（优化+部署）专栏收录该内容

42 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了深度学习中梯度消失和爆炸的问题，分析了其成因，并提出了一系列解决方案，包括预训练加微调、梯度剪切与正则化、使用ReLU等激活函数、应用BatchNorm、引入残差结构以及利用LSTM网络。这些方法有助于稳定网络训练，提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深层网络由许多非线性层堆叠而来，每一层非线性层都可以视为是一个非线性函数 f ( x ) f(x)f(x)(非线性来自于非线性激活函数），最终的目的是希望这个多元函数可以很好的完成输入到输出之间的映射，整个深度网络可以视为是一个复合的非线性多元函数：

F(x)=fn(...f3(f2(f1(x)∗θ1+b)∗θ2+b)...)

梯度消失爆炸的解决方案主要包括以下几个部分：

预训练加微调
梯度剪切、权重正则（针对梯度爆炸）
使用不同的激活函数 - 使用batchnorm
使用残差结构 - 使用LSTM网络

梯度消失经常出现，产生的原因有：一是在深层网络中，二是采用了不合适的激活函数

梯度消失、爆炸的解决方案

方案1-预训练加微调

方案2-梯度剪切、正则

梯度剪切这个方案主要是针对梯度爆炸提出的，其思想是设置一个梯度剪切阈值，然后更新梯度的时候，如果梯度超过这个阈值，那么就将其强制限制在这个范围之内。这可以防止梯度爆炸。另外一种解决梯度爆炸的手段是采用权重正则化（weithts regularization）比较常见的是l1正则和l2正则。

方案3-relu、leak

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

秋水墨色 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。