ReLU 的缺点:
训练的时候很”脆弱”,很容易就”die”了
例如,一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了,那么这个神经元的梯度就永远都会是 0.
如果 learning rate 很大,那么很有可能网络中的 40% 的神经元都”dead”了。
BP算法中:
有时是

有时是:

这是根据损失函数而定的。以平方损失来说,若损失函数(误差函数)是:

对应更新规则是:

若损失函数(误差函数)是:

对应更新规则是:

式中,d是标签,y是网络的输出。

下边这段解释了为什么这样,链接是:https://blog.youkuaiyun.com/hrkxhll/article/details/80395033

若换成交叉熵损失,目前还不是很清楚。


ReLU神经元的脆弱性
本文探讨了ReLU激活函数在神经网络训练中的潜在问题,特别是当遇到大梯度时,神经元可能永久失效,导致40%的网络单元无法响应,这会严重影响模型的学习能力。
1万+

被折叠的 条评论
为什么被折叠?



