
深度学习基础
深度学习基础
Happy_Traveller
这个作者很懒,什么都没留下…
展开
-
梯度下降小结
3.小批量梯度下降(Mini-batch Gradient Desent , MBGD)小结:BGD稳定,但是计算的慢;SGD不稳定,但是计算的快,MBGD综合了BGD和SGD。原创 2024-04-10 17:46:14 · 167 阅读 · 0 评论 -
激活函数
理论上,Leaky Relu有Relu的所有优点,外加不会有Dead Relu的问题,但是在实际操作当中,并没有完全证明Leaky Relu总好于Relu。(2)Dead Relu :某些神经元可能永远不会被激活,导致相应的参数永远不能被更新。(1)易造成梯度消失,0-0.25,连续相乘,参数无法继续更新。单调性:当激活函数是单调的,能保证单层网络的损失函数是凸函数。非线性:激活函数非线性时,多层神经网络可逼近所有函数。(3)幂运算复杂,训练时间长。(2)输出非0均值,收敛慢。(1)输出非0均值,收敛慢。原创 2024-03-21 16:04:54 · 257 阅读 · 0 评论