【动手学深度学习】(八)数值稳定和模型初始化

释怀°Believe

已于 2023-12-02 14:03:37 修改

阅读量447

点赞数 6

分类专栏： # 动手学深度学习文章标签：深度学习人工智能

于 2023-12-02 14:03:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_52986400/article/details/134751134

版权

动手学深度学习专栏收录该内容

14 篇文章

订阅专栏

文章目录

一、理论知识

一、理论知识

1.神经网络的梯度
考虑如下有d层的神经网络
在这里插入图片描述
计算损失l关于参数Wt的梯度（链式法则）

2.数值稳定性常见的两个问题

3.梯度爆炸

4.梯度爆炸的问题

值超出阈值
- 对于16位浮点数尤为严重
对学习率敏感
- 如果学习率太大-> 大参数值 -> 更大的梯度
- 如果学习率太小->训练无进展
- 我们可能需要在训练过程中不断调整学习率
  5.梯度消失
使用sigmoid作为激活函数

6.梯度消失的问题
梯度值变为0
- 对16位浮点数尤为严重
训练没有进展
- 不管如何选择学习率
对于底部层尤为严重
- 仅仅顶部层训练的较好
- 无法让神经网络更深
  7.让训练更加稳定
目标：让梯度值在合理的范围内，ex[1e-6,1e3]
将乘法变加法
- ResNet,LSTM
归一化
- 梯度归一化，梯度裁剪
合理的权重初始和激活函数
8.让每层的方差是一个常数

9.权重初始化
在合理值区间里随机初始化参数
训练开始的时候更容易有数值不稳定
- 远离最优解的地方损失函数表面可能很复杂
- 最优解附近表面会比较平
  使用来初始化可能对小网络没问题，但不能保证深度神经网络

释怀°Believe

博客等级

码龄4年

143
原创

226
点赞

305
收藏

862
粉丝

关注

私信

热门文章

分类专栏

论文阅读 2篇
定位 2篇
AI 4篇
动手学深度学习 14篇
视觉SLAM 5篇
算法刷题 13篇
蓝桥杯题解 1篇
动态规划 3篇
其他 5篇
算法基础 23篇
C++ 2篇
Vue 11篇
微信小程序 4篇
开发-前端
CSS 7篇
JS 14篇
jQuery 4篇
BootStrap 1篇
Ajax 4篇
Node 8篇
数据可视化 2篇
JavaWeb 8篇
Linux学习笔记 2篇
软件测试 2篇

展开全部收起

最新评论

分治之归并排序
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数；(3)增加条理清晰的目录。
最短路径算法
优快云-Ada助手: 什么是链表？
【论文阅读】PointNetVLAD: Deep Point Cloud Based Retrieval for Large-Scale Place Recognition
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Global visual localization in LiDAR-maps through shared 2D-3D embedding space（2020-ICRA）
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【动手学深度学习】(十四)数据增广+微调
优快云-Ada助手: 推荐 Python入门技能树：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

释怀°Believe 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。