
什么是梯度消失?如何加快梯度下降的速度
累乘中一个梯度小于1,那么不断累乘,这个值会越来越小,梯度衰减很大,迅速接近0。在神经网络中是离输出层近的参数,梯度越大,远的参数,梯度越接近0。根本原因是sigmoid函数的缺陷。
方法:1、好的初始化方法,逐层预训练,后向传播微调。2、换激活函数,用relu,leaky——relu。靠的是使梯度靠近1或等于1,避免了在累乘过程中,结果迅速衰减。
避免梯度消失和梯度爆炸的方案:使用新的激活函数Sigmoid函数和双曲正切函数都会导致梯度消失的问题。ReLU函数当x<0,的时候一样会导致无法学习。
利用一些改进的ReLU可以在一定程度上避免梯度消失的问题。例如,ELU和LeakyReLU,这些都是ReLU的变体。
深度学习中如何防止梯度消失与梯度爆炸?
为什么deep learning 能抑制梯度消失或者爆炸的问题
肯定要学会神经网络啊,因为深度学习本身就是神经网络算法,之所以叫深度学习是为了突出深度这个词。这个深度代表很多的神经网络的层数。
因为以前所说的神经网络算法没有好的训练方法,最终训练的神经网络有2到3层就是极限了,对于很多应用来说没有实际价值。
以前的主流神经网络训练方法叫反向传播,但是也解决不了随着神经网络层数的增加而梯度消失的问题。
在2006年由GeffryHiton提出使用逐层贪婪预训练的方式,使得神经网络可以高效的训练,层数可以达到很多层,加上云计算在计算能力上的主推,使得神经网络有了很大的实用价值。
你初学的话只要知道深度学习就是神经网络,只是深度上有突破就可以了。可以参考小面的文章。
深度学习之损失函数与激活函数的选择
深度学习之损失函数与激活函数的选择在深度神经网络(DNN)反向传播算法(BP)中,我们对DNN

最低0.47元/天 解锁文章
2321

被折叠的 条评论
为什么被折叠?



