激活函数快速理解

最新推荐文章于 2023-11-14 11:20:42 发布

原创最新推荐文章于 2023-11-14 11:20:42 发布 · 450 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

人工智能同时被 2 个专栏收录

15 篇文章

订阅专栏

11 篇文章

订阅专栏

本文深入探讨了常见的激活函数，包括sigmoid、tanh、Relu、Prelu和ELU，解析了它们的特点、优缺点以及如何解决梯度消失和deadrelu问题。

1、sigmoid函数

$f(x)=1/(1+e^{-x})$ $0 < f(x) < 1$

$f(x)^{'}=f(x)*(1-f(x))$ $0 < f(x^{'}) < 0.25$

所以啊很明显，会导致梯度消失（因为在反向传播BPTT过程中，在对w求导时，会包含f(x)的导数，多层时就相当于0.25的n次方，前面的单元更新态度太小了，所以是梯度消失啦）

2、tanh函数

$f(x)=(e^{x}-e^{-x})/(e^{x}+e^{-x})$ $-1 < f(x) < 1$

$0 < f(x)^{'} < 1，且有很大概率在0附近$ ，且有很大概率在0附近，所以根据上面所述，就是会梯度消失呀

3、Relu函数

$f(x)=max(0,x)$

优点：避免梯度消失问题，每一层的权重更新同等对待。计算速度快+收敛速度快。
缺点：1、Dead Relu Problem问题：learning rate较大时，如果初始w分布是一个均值是0.1，方差较小的分布，那么激活函数的输入就是一个正值，BPTT时，由于learning rate大，可能会出现w变成一个均值是0.1，方差较小的分布，那么这时激活函数的输入就是一个负值，这就会导致梯度更新时梯度一直是0，w更新不了。2、Relu的输出不是zero-centered的

4、Prelu函数

$f(x)=max(\alpha x, x)$

α为0.01，这样就可以有效解决dead relu问题，因为梯度值不会为0了呀

5、ELU函数

$f(x)=x, x > 0 | \alpha (e^{x}-1), otherwise$

这样就可以解决zero-centered问题了，尽量时均值为0嘛，同时避免dead relu问题

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。