李沐14数值稳定性_模型初始化和激活函数——自学笔记

Rrrrrr900

于 2024-03-29 14:48:27 发布

阅读量389

点赞数 5

文章标签：笔记人工智能机器学习 python pytorch 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Rrrrrr900/article/details/137145243

版权

本文讨论了数值稳定性在深度学习中的挑战，特别是梯度爆炸和消失问题，强调了合理的模型初始化、激活函数选择以及归一化方法（如ResNet和LSTM）的重要性。通过控制梯度范围和确保每层方差恒定，以提高训练的稳定性和深度网络性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数值稳定性

数值稳定性常见的两个问题：梯度爆炸和梯度消失

梯度爆炸的问题：值超出值域(infinity)
1. 对于16位浮点数尤为严重（数值区间在6e-5 to 6e4）
2. 学习率敏感
3. 如果学习率太大->大参数值->更大的梯度
4. 如果学习率太小->训练无进展
5. 我们可能需要在训练过程中不断调整学习率

梯度消失的问题：
1.梯度变成0，对16位浮点数尤为严重
2.训练没有进展，不管如何选择学习率
3.对于底部层尤为严重，仅仅顶部层训练的较好，无法让神经网络更深

总结

1.当数值过大或者过小的时候，会导致数值问题
2.常发生在深度模型中，因为其会对n个数累乘

模型初始化和激活函数

让训练更加稳定
目标：让梯度值在合理的范围内，例如[1e-6, 1e3]
将乘法变加法，ResNet,LSTM
归一化,梯度归一化，梯度裁剪

因此，需要选择合理的权重初始和激活函数。

让每层的方差是一个常数

1.将每层的输出和梯度都看作随机变量。
2.让它们的均值和方差都保持一致。

权重初始化

1.在合理的值区间里随机选择初始参数
2.训练开始的时候更容易有数值不稳定：远离最优解的地方损失函数表面可能很复杂，最优解附近表面可能会比较平
3.使用N(0,0.01)来初始可能对小网络没问题，但不能保证深度神经网络。

总结

合理的权重初始值和激活函数的选取可以提升数值稳定性。

博客等级

码龄6年

64
原创

834
点赞

450
收藏

693
粉丝

关注

私信

热门文章

最新评论

李沐16神经网络基础——自学笔记
优快云-Ada助手: 恭喜作者发布了第14篇博客！不断学习和分享知识是非常值得赞赏的。建议下一步可以尝试深入探讨一些实际案例，结合自己的理解和经验，给读者更多启发和思考。希望您能继续坚持创作，加油！谦虚谨慎地学习和分享是我们不断成长的不竭动力。
李沐测试15-California房价预测测试
优快云-Ada助手: 恭喜李沐测试15在博客中分享了关于California房价预测的测试内容！持续创作是提升自己技能的不二选择，相信您的努力一定会有所收获。希望在下一篇博客中，可以深入探讨一些实际案例，或者结合更多的数据分析方法，以丰富内容吸引更多读者的关注。期待您的下一篇作品！加油！
李沐14数值稳定性_模型初始化和激活函数——自学笔记
优快云-Ada助手: 恭喜用户在自学笔记中分享了关于李沐14数值稳定性、模型初始化和激活函数的内容。持续创作对于个人学习和分享经验都是非常有益的，希望您能继续坚持下去，为更多人带来知识的启发和帮助。建议您在下一篇博客中可以深入探讨一些实际案例，结合具体的应用场景进行分析，这样可以让读者更加直观地理解相关概念。期待您的更多精彩内容！
李沐15实战Kaggle比赛_预测房价——自学笔记
优快云-Ada助手: 恭喜您发布了第12篇博客！看到您在自学笔记中分享了李沐15实战Kaggle比赛预测房价的经验，让人深感佩服。希望您能继续坚持创作，不断提升自己的技术水平。下一步，可以考虑分享更多具体的数据分析案例，或者挑战更多不同领域的Kaggle比赛，拓展自己的技术视野。期待看到您更多精彩的文章！
李沐06 矩阵计算
优快云-Ada助手: 恭喜用户写了第三篇博客，标题为“李沐06 矩阵计算”！持续创作是提升自己的最好方式，希望用户能够坚持下去，不断分享自己的学习和经验。下一步建议可以尝试写一些实践性更强的文章，比如结合具体案例进行分析和总结，这样能够更好地帮助读者理解和应用知识。期待用户更加优秀的作品！愿用户在创作的路上越走越远！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。