跟李沐学AI-动手学深度学习-数值稳定性+模型初始化和激活函数

本文探讨了深度神经网络中常见的数值稳定性问题,包括梯度爆炸和梯度消失。通过实例分析MLP,解释了ReLU和sigmoid激活函数导致的这些问题,提出了通过权重初始化、归一化和选择合适的激活函数来提升训练稳定性的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

数值稳定性

神经网络的梯度

数值稳定性的常见两个问题

例子: MLP

梯度爆炸

 梯度爆炸的问题

梯度消失

梯度消失的问题

总结

让训练更加稳定

让每层的方差是一个常数

 权重初始化

例子:MLP

 正向方差

 反向均值和方差

Xavier初始

 假设线性的激活函数

反向

 检查常用激活函数

 总结


数值稳定性

神经网络的梯度

考虑如下有d层的神经网络

计算损失l关于参数Wt的梯度

数值稳定性的常见两个问题

梯度消失梯度爆炸

例子: MLP

加入如下MLP(为了简单省略了偏移)

 

 

梯度爆炸

 使用ReLU作为激活函数。

 梯度爆炸的问题

  •  值超出值域(infinity)

   对于16位浮点数尤为严重(数值区间6e-5 - 6e4)。

  • 对学习率敏感

   如果学习率太大 -> 大参数值 -> 更大的梯度。

   如果学习率太小 -> 训练无进展。

  我们可能需要在训练过程不断调整学习率。

梯度消失

使用sigmoid作为激活函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值