常见激活函数
激活函数的作用
激活函数的主要功能是为神经网络非线性能力 ,去掉激活函数层,神经网络仅剩下线性函数,多层线性函数的拟合还是线性的,无法更好的建模生活中的大多数非线性问题。
线性激活函数(不是重点)
非线性激活函数(sigmod,tanh,relu,lrelu,Prelu,swish)
考量:
- 可微性:因为优化方法是基于梯度的,
- 单调性:当激活函数是单调的时候,能够保证单层网络是凸函数
输出值的范围:激活函数的输出值的范围可以有限也可以无限。当输出值是有限的时候,基于梯度的优化方法会更加稳定,因为特征的表示受有限权值的影响更加显著;当输出值是无限的时候,模型的训练会更加高效,不过在这种情况下,一般需要更小的learning rate
非线性激活函数
sigmod
公式
f ( x ) = 1 1 + e − x f ′ ( x ) = f ( x ) ∗ ( 1 − f ( x ) ) f(x) = \frac{1}{1+e^{-x}} \\ f^{'}(x) = f(x)*(1-f(x)) f(x)=1+e−x1f′(x)=f(x)∗(1

激活函数是神经网络的重要组成部分,提供非线性建模能力。本文对比了sigmoid、tanh、ReLU、LReLU、PReLU、ELU和Swish等激活函数,分析了它们的性质、优缺点,如sigmoid的梯度消失问题,ReLU的快速收敛和死ReLU问题,以及ELU和Swish的鲁棒性。这些函数在不同的场景下有不同的表现,选择合适的激活函数对于模型的训练和性能至关重要。
最低0.47元/天 解锁文章
1012

被折叠的 条评论
为什么被折叠?



