ReLU 的缺点:
训练的时候很”脆弱”,很容易就”die”了
例如,一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了,那么这个神经元的梯度就永远都会是 0.
如果 learning rate 很大,那么很有可能网络中的 40% 的神经元都”dead”了。
BP算法中:
有时是
有时是:
这是根据损失函数而定的。以平方损失来说,若损失函数(误差函数)是:
对应更新规则是:
若损失函数(误差函数)是:
对应更新规则是:
式中,d是标签,y是网络的输出。
下边这段解释了为什么这样,链接是:https://blog.youkuaiyun.com/hrkxhll/article/details/80395033
若换成交叉熵损失,目前还不是很清楚。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210425194555893.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTAxMjM5OQ==,size_16,color_FFFFFF,t_70