常见激活函数及其求导相关知识

最新推荐文章于 2025-05-28 20:33:22 发布

VariableX

最新推荐文章于 2025-05-28 20:33:22 发布

阅读量4.9k

点赞数 8

CC 4.0 BY-SA版权

分类专栏：深度学习相关文章标签：神经网络算法深度学习机器学习

本文链接：https://blog.youkuaiyun.com/VariableX/article/details/106455865

本文详细介绍了Sigmoid、tanh、ReLU和Softmax这四种常见的激活函数，包括它们的函数形式、图像、优缺点以及求导过程。Sigmoid在深层网络中易导致梯度消失，tanh解决了平均值问题但仍有梯度消失，ReLU因其非零梯度在现代神经网络中广泛使用，而Softmax常用于多分类任务的概率输出。同时，文章还讨论了激活函数的作用，指出非线性变换对于提升模型表达能力的重要性，并提出了激活函数选择的建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Sigmoid函数

Sigmoid函数介绍

Sigmoid 是常用的非线性的激活函数，公式如下：
$\sigma(x)=\frac{1}{1+e^{-x}}$
函数图像如下：

在这里插入图片描述

从图像可以看出，它能够把连续实值映射为0和1之间的输出，特别的，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1。

Sigmoid 函数有很多局限性：

第一点，在数值的绝对值非常大的情况下，对应的函数图像的部分几乎是一条水平线。这意味着梯度几乎为0，不利于深层网络中梯度的反向传播，容易造成梯度消失。

第二点，Sigmoid 的输出不是0均值，导致梯度的更新要么都往正方向更新，要么都往负方向更新，导致有一种捆绑的效果，使得收敛缓慢。具体的解释，在文末讨论。

第三点，式子包含幂运算，计算量很大。

Sigmoid函数求导

求导过程及结果如下：
$\begin{aligned} \sigma^{\prime}(x) &=\left(\frac{1}{1+e^{-x}}\right)^{\prime} \\ &=\frac{e^{-x}}{\left(1+e^{-x}\right)^{2}} \\ &=\frac{1+e^{-x}-1}{\left(1+e^{-x}\right)^{2}} \\ &=\sigma(x)(1-\sigma(x)) \end{aligned}$
函数图像如下：

在这里插入图片描述

求导的结果可以看出，导数的最大值为0.25，小于1 ，很容易造成梯度消失。

tanh 函数

tanh 函数介绍

tanh 函数公式如下：
$\tanh (x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$
图像如下：

在这里插入图片描述

tanh 函数决了Sigmoid函数的输出不是0均值，然而，梯度消失和幂运算的问题仍然存在。

tanh 函数求导

求导过程如下：
$tanh(x)^{\prime}=\frac{(e^{x}+e^{-x})^{2}-(e^{x}-e^{-x})^{2}}{(e^{x}+e^{-x})^{2}}=1-(tanh(x))^{2}$
求导后的图像：

在这里插入图片描述

Relu函数

Relu函数介绍

Relu函数公式如下：
$ReLU(x)=\begin{cases}{0,} & {x \leqslant 0} \\ {x,} & {x>0}\end{cases}$
函数图像如下：

在这里插入图片描述

Relu 函数在输出值大于 0 的部分的导数值都大于0，并且不趋近于0，因而梯度下降速度较快。

Relu 函数在输出值小于 0 的部分的导数值都等于0，此时神经元就不会得到训练，能对网络产生稀疏性，降低过分拟合的概率。

但是也存在以下问题：

输出不是0均值
Dead ReLU Problem：因梯度等于0导致失效的神经元不会再被激活

注：为了解决第二个问题，有人提出了Leaky ReLU激活函数： $\; ReLU(x) = max(0.01x, x)$ ，使得小于0的部分有些许梯度。

尽管ReLU存在这两个问题，ReLU目前仍是最常用的激活函数，在搭建模型的时候推荐优先尝试。

Relu函数求导

求导结果如下：
$ReLU(x)^{\prime}=\begin{cases}{0,} & {x \leqslant 0} \\ {1,} & {x>0}\end{cases}$
函数图像如下：

在这里插入图片描述

Softmax函数

Softmax函数介绍

对于多分类任务，常用的激活函数是 Softmax 激活函数。使用了Softmax函数的神经网络对应多个输出层神经元，如下图所示；

在这里插入图片描述

每个输出单元的数值代表该类别的概率 $p_i$ ，数值越大，说明属于该类别可能性越大。

具体而言，假设倒数第二层的输出值为：
$z_i = w_i x + b_i$
假设有K个类别，Softmax函数定义如下：
$Softmax(z_i)=\frac{e^{z_i}}{\sum_{i=1}^{K} e^{z_i}} \quad \forall i \in 1 \ldots K$
则在最后一层使用 Softmax 激活函数后的输出值为：
$h_w(x) = \begin{bmatrix}p_1\\p_2 \\ \vdots \\p_{K} \end{bmatrix} = \frac{1}{\sum_{i=1}^K e^{z_i}} \begin{bmatrix}e^{z_1}\\e^{z_2 } \\ \vdots \\e^{z_K} \end{bmatrix}$