数值稳定性+模型初始化和激活函数

最新推荐文章于 2025-05-29 14:38:08 发布

临渊羡鱼的猫

最新推荐文章于 2025-05-29 14:38:08 发布

阅读量339

点赞数 5

文章标签：机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_44763553/article/details/144895877

版权

数值稳定性

所有h都是向量，向量对向量求导是矩阵，里面会做d-t次矩阵乘法

让训练更加稳定

目标：让梯度值在合理的范围内[1e-6, 1e3]
让乘法变为加法
- LSTM，ResNet
归一化
- 梯度归一化，梯度裁剪
合理的权重初始和激活函数

让每层的方差是一个常数

将每层的输出和梯度都看作随机变量
均值和方差都保持一致

在合理值区间里随机初始参数
训练开始的时候更容易有数值不稳定
- 远离最优解的地方损失函数表面可能很复杂
- 最优解附近表面会比较平
使用N(0,0.01)来初识可能对小网络没问题，但不能保证深度神经网络

除非输入==输出，不然满足不了第一个条件

、

线性激活函数不会产生非线性

合理权重初始值和激活函数的选取可以提升数值稳定性

Q&A

inf是权重初始值太大产生的，nan是除0
均值和方差做限制

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。