神经网络梯度消失、梯度爆炸

形成原因,以 BP 为例说明

  • 训练后期,最后一层网络越接近sigmoid两端,此时梯度很小,反向传播导致浅层网络的梯度更小,难以更新权重
  • 很深的网络哦容易出现这个问题,梯度计算的结果显示,低层网络的梯度是高层网络梯度结果(部分)的叠乘和它自己的部分的乘积。

解决方案

Batch Normalization

  • 解决问题:Internal Convoriance shift - 由于参数变化,神经网络中间层的数据分布与输入不同,随着网络加深,差异也变大。但是label不变(源空间和目标空间的分布不一致)
  • 解决方案:对每一层的输入做批量归一化,是数据分布为N(0,1),【注意:均值方差一致不代表数据分布一致】。y也通过下列形式
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值