激活函数知识点汇总

最新推荐文章于 2025-10-22 17:49:52 发布

原创最新推荐文章于 2025-10-22 17:49:52 发布 · 885 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#激活函数

机器学习笔记同时被 2 个专栏收录

9 篇文章

订阅专栏

深度学习算法

5 篇文章

订阅专栏

本文介绍了激活函数的作用及选择标准，详细对比了sigmoid、tanh、ReLU等常见激活函数的优缺点，并探讨了解决非线性饱和区的方法。

文章目录

1. 使用激活函数的原因

没有激活函数，无论神经网络有多少层，输出都是输入的线性组合。
激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

2. 什么函数才能成为激活函数

非线性函数：不管无论神经网络有多少层，输出都是输入的线性组合。退化为线性模型
函数几乎处处可微：保证梯度的可计算性
计算简单：relu比指数型激活函数计算量少
非饱和性：饱和时指某些区间的梯度为零，，relu
单调性：使得梯度方向不会经常改变，从而使训练更容易收敛。
输出范围有限：有限输出使得对一些比较大的输入也有较平稳的表现，这是早期sigmoid比较常用的原因

3.常用的激活函数

3.1 sigmoid函数

在这里插入图片描述 $\frac{1}{1+exp(-z)}$

sigmoid的优点

输出值有限，在0-1之间,有限输出使得对一些比较大的输入也有较平稳的表现
函数光滑可微，导数计算方便

sigmoid的缺点

存在非线性饱和区，容易在方向传播时引起梯度弥散
涉及指数的计算，运算量大，速度不如relu

3.2 tanh 函数

在这里插入图片描述 $\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$

tanh函数的优点

函数光滑可微，导数计算方便
输出值正负对称，稳定在[-1, 1]
具有在0附近梯度较大，有利于区别小的特征差异
tanh函数的缺点
存在非线性饱和区，容易在方向传播时引起梯度弥散
涉及指数的计算，运算量大，速度不如relu

3.3 relu函数

在这里插入图片描述
$r e l u （ x ） = m a x (x, 0)$

relu的优点

第一，relu速度更快。采用sigmoid等函数，算激活函数时候（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法，计算量相当大，而采用Relu激活函数，整个过程的计算量节省很多。
第二，对于深层网络，由于sigmoid、tanh函数只在0附近的梯度较大，当趋向两边无穷远时，梯度很小。因此在反向传播时，很容易就出现梯度消失的情况（在sigmoid函数接近非线性饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失），从而无法完成深层网络的训练
第三，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

relu的缺点

由于relu函数在负半轴的输出恒为0，这导致relu函数在训练时可能使部分神经元永远不会对数据由激活现象，这个神经元的梯度永远为零，变成一个dead cell。
函数值只能取正值。w的更新方向受到限制，只能往一三象限更新，当最优解在第四象限时，只能更新不能一步到达，只能沿梯子步到达。
也有非线性饱和区问题

注意：如果学习率很大，神经元都”dead”的占比就更多。

3.4 Elu函数

在这里插入图片描述

$\left\{\begin{matrix} z& z>=0& \\ \alpha(e^{z}-1) & z<0 & \end{matrix}\right.$

优点：
elu函数堆relu进行了改进，使得在输入为负数的情况下，有一定输出。这样可以消除ReLU部分神经元dead的问题。
缺点：

也会陷入非线性饱和区
指数运算复杂度比较高

3.5 Prelu、Leaky ReLU函数

在这里插入图片描述

$\alpha max ( x, 0 )$
优点：

PReLU也是针对ReLU的一个改进型，relu直接乘以一个很小的参数，可以避免ReLU死掉的问题。
相比于ELU，PReLU在负数区域内是线性运算，斜率虽然小，但是不会趋于0，运算量小。
参数α一般是取0~1之间的数，当α=0.01时，成为Leaky ReLU。

3.6 自归一化激活函数 SELU

$=\lambda \left\{\begin{matrix} z& z>=0& \\ \alpha(e^{z}-1) & z<0 & \end{matrix}\right.$

优点：

针对ELU的一个改进型，当选取 $\lambda = 1.0506, \alpha = 1.67326$ 时，那么SELU(z) 的期望为0，方差为1. 文章中证明，如果使用SELU激活函数，并且初始化权重也为均值为0，方差为1，那么模型具有自归一化属性。自归一化可以在不加入BN的情况下，将每层的数据分布都变成均值为0，方差为1。这样可以：
- 防止过拟合，
- 解决了其他激活函数进入非线性饱和区带来的梯度弥散问题
- 加速模型收敛