【笔记】ReLU和LeakyReLu函数
ReLU
ReLu全称为修正线性单元,是神经网络中最常用的激活函数;其公式如下
yi={xiifxi≥00ifxi≤0
y_i = \begin{cases}x_i \quad if \quad x_i\geq0 \\ 0 \quad if\quad x_i\leq0 \end{cases}
yi={xiifxi≥00ifxi≤0
其优点是:
- 相比
sigmoid,tanh函数,使用梯度下降(GD)法时候,收敛速度很快; - 相比
sigmoid/tanh函数,Relu只需要一个门限值(0),即可以得到激活值,网络的计算速度更快 ;
但是,由计算公式可知,当输入为正时候,导数不为0,从而可以基于梯度的学习,进行梯度传递,当输入为负时候,输出为0,导数也为0;从而权重无法得到更新,训练就会很慢,甚至一直保持静默状态;这种状态下,某些神经元的参数无法得到更新,叫做“Dead Neuron";
LeakyReLU
yi={xiifxi≥0xiaiifxi≤0其中ai>1 y_i = \begin{cases}x_i \quad if \quad x_i\geq0 \\ \frac{x_i}{ai} \quad if\quad x_i\leq0 \end{cases}\\其中\quad a_i>1 yi={xiifxi≥0aixiifxi≤0其中ai>1
ReLU是将所有负值设为0,LeakyReLU是给所有负值赋予一个非零斜率;由于导数恒不为0,所以,能减少静默神经元的出现,允许基于梯度的学习;
LeakyReLU能解决"Dead Neuron"问题,但是,梯度更新有时候会比Relu慢,因为要计算的量更多;
ReLU和LeakyReLU是神经网络中两种常见的激活函数。ReLU因其简单和快速的收敛性而广泛使用,但存在'Dead Neuron'问题。LeakyReLU为了解决这个问题,对负值部分赋予了一个小的斜率,使得即使在负区也能进行梯度传播,减少了静默神经元的出现。然而,这可能导致较慢的梯度更新。
3573

被折叠的 条评论
为什么被折叠?



