链接
https://arxiv.org/abs/1505.00853
摘要
论文研究集中不同的ReLU对网络性能的影响,包括ReLU、Leaky ReLU,带参数的Leaky ReLU就是PReLU,以及参数随机的RReLU。
以往的看法是ReLU的良好性能来自参数的稀疏性,但实验结果表明负数部分斜率不为0的ReLU性能要好一些。在小的数据集上,采用Leaky ReLU或者PReLu都容易造成过拟合。RReLU的性能要更好。
值得注意的问题
对于RReLU,在训练阶段 a i , j a_{i,j} ai,j的取值是在 l , u l,u l,u之间均匀分布的一个随机数,也就是
y j i = { x j i , x j i ≥ 0 a j i x j i , x j i < 0 y_{ji}= \left\{ \begin{aligned} x_{ji} , \qquad x_{ji} \ge0 \\ a_{ji}x_{ji} , \qquad x_{ji} \lt 0 \end{aligned} \right. yji={xji,xji≥0ajixji,xji<0
而
a j i ∼ U ( l , u ) , l < u a n d l , u ∈ [ 0 , 1 ) a_{ji} \sim U(l,u), \qquad l<u\quad and\quad l,u\in[0,1) aji∼U(l,u),l<uandl,u∈[0,1)
在Test Phase,
y j i = l + u 2 x j i y_{ji}=\frac{l+u}{2}x_{ji} yji=2l+uxji
参考Dropout的思路。
可以借鉴的思路
小数据集可以采用RReLU的策略,但 l , u l,u l,u 怎么选择可能也要经验。