DNN常见激活函数与其求导公式及来源

最新推荐文章于 2025-05-28 20:33:22 发布

原创最新推荐文章于 2025-05-28 20:33:22 发布 · 8k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#dnn #激活函数

深度学习专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了多种常见的激活函数，包括Sigmoid、tanh、ReLU及其变种Leaky ReLU、ELU，还有Maxout等。每种函数的特点、数学表达式及导数都被清晰地阐述，并探讨了它们在神经网络中的应用优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Sigmoid 函数

f 1 (x) = 1 1 + e - x

$f_1(x)=\frac1{1+e^{-x}}$

f1(x) $f_1(x)$ 的导函数为：

d d x f 1 (x) = f 1 (x) (1 - f 1 (x))

$\frac{d}{\mathrm{d}x}f_1(x) = f_1(x)(1-f_1(x))$

tanh函数

s i n h (x) = e x - e - x 2

$sinh(x)=\frac{e^x-e^{-x}}2$

c o s h (x) = e x + e - x 2

$cosh(x)=\frac{e^x+e^{-x}}2$

t a n h (x) = s i n h ( x ) c o s h ( x ) = e x - e - x e x + e - x

$tanh(x)=\frac{sinh(x)}{cosh(x)}=\frac{e^x-e^{-x}}{e^x+e^{-x}}$
通过上下同乘

e−x $e^{-x}$ 可得

f2(x)=tanh(x)=2f1(2x)−1 $f_2(x)=tanh(x)=2f_1(2x)-1$ 【转化为Sigmoid函数的形式】
因此，tanh的导函数为：

d d x f 2 (x) = 2 f 1 (2 x) * 2 (1 - f 1 (2 x)) = 1 - f 22 (x)

$\frac{d}{\mathrm{d}x}f_2(x)=2f_1(2x)*2(1-f_1(2x))=1-f_2^2(x)$
函数模型如下：

相关论文：(该论文证明了tanh激活函数比Sigmoid好，因为Sigmoid的平均值不为0)
Eigenvalues of covariance matrices: Application to neural-network learning.

ReLu 函数

f 3 (x) = m a x (0, x)

$f_3 (x)=max⁡(0, x)$
即当x>0时，函数表现为 y=x；当 x<0 时，函数表现为 y=0
表现为分段函数的形式：

f 3 (x) = {x, 0, x>0 x \leq 0

$f_3 (x)=\begin{cases} x, & \text{x>0} \\ 0, & {x \le 0} \end{cases}$
则 ReLu函数的导函数为：

d d x f 3 (x) = {1, 0, x>0 x \leq 0

$\frac{d}{\mathrm{d}x}f_3(x)=\begin{cases} 1, & \text{x>0} \\ 0, & {x \le 0} \end{cases}$

提出背景：
2001年，神经科学家Dayan、Abott从生物学角度，模拟出了脑神经元接受信号更精确的激活模型，模型如下：

这个模型对比Sigmoid系(Sigmoid和tanh)主要变化有三点：①单侧抑制 ②相对宽阔的兴奋边界 ③稀疏激活性（重点，可以看到红框里前端状态完全没有激活）

该函数模型和Softplus函数一起被整理后，由论文发表。模型如下：

相关论文为：
Deep Sparse Rectifier Neural Networks

Leaky ReLu 函数

f 4 (x) = {x, α x, x > 0 x \leq 0

$f_4 (x)=\begin{cases} x, & x>0 \\ \alpha x, & x \le 0 \end{cases}$
其中，α是一个接近0的常数
则 Leaky ReLu函数的导函数为：

d d x f 4 (x) = {1, α, x > 0 x \leq 0

$\frac{d}{\mathrm{d}x}f_4(x)=\begin{cases} 1, & {x>0} \\ \alpha, & {x \le 0} \end{cases}$
函数模型如下：
Leaky ReLu 函数

提出论文：
Rectifier nonlinearities improve neural network acoustic models

ELU 函数

f 5 (x) = {x, α (e x - 1), x > 0 x \leq 0

$f_5 (x)=\begin{cases} x, & x>0 \\ \alpha (e^x-1), & x \le 0 \end{cases}$
则 ELU函数的导函数为：

d d x f 5 (x) = {1, α e x, x > 0 x \leq 0 = {1, f 5 (x) + α, x > 0 x \leq 0

$\frac{d}{\mathrm{d}x}f_5(x)=\begin{cases} 1, & {x>0} \\ \alpha e^x, & {x \le 0} \end{cases} =\begin{cases} 1, & {x>0} \\ f_5(x) + \alpha, & {x \le 0} \end{cases}$

ELU函数模型如下：

该函数模型有如下特性：
右侧线性部分使得ELU能够缓解梯度消失，而左侧软饱能够让ELU对输入变化或噪声更鲁棒。ELU的输出均值接近于零，所以收敛速度更快。

提出论文：
Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)

Maxout函数

f 5 (x) = m a x ((w i) T x + b i)

$f_5(x)=max⁡((w_i )^T x+b_i)$
该函数有如下特性：
maxout的拟合能力是非常强的，它可以拟合任意的的凸函数（当然包括ReLu和 Leaky ReLu）。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合。
Maxout能够缓解梯度消失，同时又规避了ReLU神经元死亡的缺点，但增加了参数和计算量。

提出论文：
Maxout Networks