激活函数ReLu
- f(x) = max(0, x)
- ReLu的求导(梯度),基本是1,所以比tanh的(0,1)更好
- 而且没有复杂的运算,训练效率更快
- 基本不会出席梯度消失
- 但是也可能神经元梯度为0 ,则会出现神经元死亡,但是呢,也缓和了过拟合的情况
- 推荐用于隐藏层,且适合深层网络


为什么ReLu的梯度基本为1
- 因为我们的x基本大于0
- 因为在训练过程中,我们希望并且通过初始化(如He初始化)等手段,让网络中的大部分神经元在大部分时间都处于“激活”状态(即输入 > 0)。对于一个设计良好、训练成功的网络,大部分区域的梯度就是1。

被折叠的 条评论
为什么被折叠?



