深度学习基础
深度学习基础
Happy_Traveller
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
梯度下降小结
3.小批量梯度下降(Mini-batch Gradient Desent , MBGD)小结:BGD稳定,但是计算的慢;SGD不稳定,但是计算的快,MBGD综合了BGD和SGD。原创 2024-04-10 17:46:14 · 197 阅读 · 0 评论 -
激活函数
理论上,Leaky Relu有Relu的所有优点,外加不会有Dead Relu的问题,但是在实际操作当中,并没有完全证明Leaky Relu总好于Relu。(2)Dead Relu :某些神经元可能永远不会被激活,导致相应的参数永远不能被更新。(1)易造成梯度消失,0-0.25,连续相乘,参数无法继续更新。单调性:当激活函数是单调的,能保证单层网络的损失函数是凸函数。非线性:激活函数非线性时,多层神经网络可逼近所有函数。(3)幂运算复杂,训练时间长。(2)输出非0均值,收敛慢。(1)输出非0均值,收敛慢。原创 2024-03-21 16:04:54 · 281 阅读 · 0 评论
分享