最常用激活函数公式（更新中）

最新推荐文章于 2025-05-12 16:57:40 发布

原创最新推荐文章于 2025-05-12 16:57:40 发布 · 5.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

python 同时被 3 个专栏收录

11 篇文章

订阅专栏

4 篇文章

订阅专栏

3 篇文章

订阅专栏

本文详细介绍了神经网络中常用的激活函数，包括sigmoid、tanh、ReLU及其变种等，并解释了这些函数的特点和应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最常用激活函数公式

如需转载，请务必标明出处及作者信息：@洋石灰儿 @https://blog.youkuaiyun.com/Yshihui/article/details/80540070

（1）what and why

直观的作用就是进行非线性操作，将输入信号input线性加权，再进行非线性操作。
神经网络模拟生物神经元的工作原理，人工神经元的工作是将神经质传输到突出，突出将各个神经质进行进一步操作，权衡后再向下一个神经元传输神经质。可以自行查询生物神经元的工作原理。
激活函数的性质：
1. 非线性——从后面的各个激活函数的公式可以明显看出。原因是：层神经网络向下一层神经网络传递信息时，如果是线性处理，则层和层等价于一层神经网络，从而失去神经元传递的意义。非线性操作——模拟生物神经元工作原理。
2. 可微性——进行优化时常利用梯度进行方向优化。
3. 单调性——单调性保证单层神经网络的单调性，从而保证输入和输出之间的单调性关系（参考链式法则）。
4. 输出范围——当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的learning rate。

（2）常用激活函数

sigmoid，tanh，ReLU，LReLU，PReLU，RReLU，ELU，Cost Function，Maxout，Softplus，Softsign

1.sigmoid

s i g m o i d (x) = 1 1 + e - x

$sigmoid(x)=\frac{1}{1+e^{-x}}$

2.tanh

t a n h (x) = e x - e - x e x + e - x = e 2 x - 1 e 2 x + 1

$tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}=\frac{e^{2x}-1}{e^{2x}+1}$

3.ReLU

y = {x, 0, if x \geq 0 if x < 0

$y=\begin{cases} x, & \mbox{if }x \ge0 \\ 0, & \mbox{if }x < 0 \end{cases}$

4.LReLU——PReLU

y i = {x i, a i x i, if (x i > 0) if (x i \leq 0)

$y_i=\begin{cases} x_i, & \mbox{if }(x_i >0) \\ a_ix_i, &\mbox{if }(x_i \leq 0) \end{cases}$

5.RReLU

y j i = {x j i, a j i x j i, if x j i \geq 0 if x j i < 0 a j i \sim U (l, u) l < u, a n d l, u \in [0, 1)

$y_{ji}=\begin{cases} x_{ji}, & \mbox{if }x_{ji} \ge0 \\ a_{ji}x_{ji}, & \mbox{if }x_{ji} < 0 \end{cases} \\ \\ a_{ji}\sim U(l,u)\ l<u,and \ l,u\in[0,1)$

6.softmax

θ (z) i = e z i \sum K k = 1 e z k

$\theta(z)_i=\frac{e^{z_i}}{\sum_{k=1}^Ke^{z_k}}$

7.ELU

y = {x, a (e x - 1), if x \geq 0 if x < 0 a > 0

$y=\begin{cases} x, & \mbox{if }x \ge0 \\ a(e^x-1), & \mbox{if }x < 0 \end{cases} \hspace {15 mm} a>0$

8.Cost Function——Softmax + Cross Entropy

9.Maxout

Maxout可以看做是在深度学习网络中加入一层激活函数层,包含一个参数k.这一层相比ReLU,sigmoid等,其特殊之处在于增加了k个神经元,然后输出激活值最大的值.

我们常见的隐含层节点输出：

$h_i(x)=sigmoid(x^TW_{…i}+b_i)$

而在Maxout网络中，其隐含层节点的输出表达式为：

$h_i(x)=max_{j∈[1,k]}z_{ij}$

其中 $z_{ij}=x^TW_{…ij}+b_{ij},W\in R^{d×m×k}$

以如下最简单的多层感知器(MLP)为例:

maxout-networks-4-1024

假设网络第i层有2个神经元x1、x2，第i+1层的神经元个数为1个.原本只有一层参数,将ReLU或sigmoid等激活函数替换掉,引入Maxout,将变成两层参数,参数个数增为k倍.与常规激活函数不同的是,它是一个可学习的分段线性函数.

然而任何一个凸函数，都可以由线性分段函数进行逼近近似。其实我们可以把以前所学到的激活函数：ReLU、abs激活函数，看成是分成两段的线性函数，如下示意图所示：

maxout-convex-func-approximate!

实验结果表明Maxout与Dropout组合使用可以发挥比较好的效果。

那么,前边的两种ReLU便是两种Maxout,函数图像为两条直线的拼接, $f(x)=max(w^T_1x+b_1,w^T_2x+b_2)$ .

原文: https://www.cnblogs.com/makefile/p/activation-function.html © 康行天下

10.Softplus

f (x) = l o g (e x + 1)

$f(x)=log(e^x+1)$

11.Softsign

f (x) = x | x | + 1

$f(x)=\frac{x}{|x|+1}$

sigmoid，tanh，ReLU，LReLU，PReLU，RReLU，ELU，Cost Function，Maxout，Softplus，Softsign

如需转载，请务必标明出处及作者信息：@洋石灰儿 @https://blog.youkuaiyun.com/Yshihui/article/details/80540070

参考：

https://zhuanlan.zhihu.com/p/26122560

https://blog.youkuaiyun.com/yshihui/article/details/80444353

https://www.jianshu.com/p/22d9720dbf1a

https://www.cnblogs.com/rgvb178/p/6055213.html

https://www.cnblogs.com/makefile/p/activation-function.html

https://zhuanlan.zhihu.com/p/22142013

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。