梯度消失问题(vanishing gradient problem)

本文深入探讨了神经网络中梯度消失的问题,分析了其主要原因是由于使用了sigmoid激活函数。详细解释了在前向传播过程中,sigmoid函数如何将输入压缩至0到1之间,导致多次变换后数值极小;并在反向传播中,由于乘以前向计算的值(小于1),使得权重的梯度越靠前越小。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

tips

  1. 梯度消失的原因是使用了sigmoid作为激活函数
  2. sigmoid函数将很大范围的数对应的输出都映射到了0和1之间,这导致前向计算每个结点的值时,即使是一个很大的输入,经过一次sigmoid函数的变换,都会变成0到1之间的数,如此几次,便变得极小。
  3. 反向传播计算∂C/∂z\partial C/\partial zC/z后,要逐层乘以前向计算好的xix_ixi来求得∂C/∂wi\partial C/\partial w_iC/wi,而这些xix_ixi无一例外是小于1的,因此越靠前的∂C/∂wi\partial C/\partial w_iC/wi越小。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值