0_3-激活函数的反向传播-ReLU、LeakyReLU、PReLU、ELU、SELU

yizt

于 2018-09-02 23:06:00 发布

阅读量9k

点赞数 5

CC 4.0 BY-SA版权

分类专栏： numpy构建神经网络文章标签：激活函数 ReLU ELU SELU 反向传播

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/csuyzt/article/details/82320589

numpy构建神经网络专栏收录该内容

13 篇文章

订阅专栏

numpy实现神经网络系列

工程地址：https://github.com/yizt/numpy_neuron_network

基础知识

0_1-全连接层、损失函数的反向传播

0_2_1-卷积层的反向传播-单通道、无padding、步长1

0_2_2-卷积层的反向传播-多通道、无padding、步长1

0_2_3-卷积层的反向传播-多通道、无padding、步长不为1

0_2_4-卷积层的反向传播-多通道、有padding、步长不为1

0_2_5-池化层的反向传播-MaxPooling、AveragePooling、GlobalAveragePooling、GlobalMaxPooling

0_3-激活函数的反向传播-ReLU、LeakyReLU、PReLU、ELU、SELU

0_4-优化方法-SGD、AdaGrad、RMSProp、Adadelta、Adam

DNN练习

1_1_1-全连接神经网络做线性回归

1_1_2-全连接神经网络做mnist手写数字识别

CNN练习

2_1-numpy卷积层实现

2_2-numpy池化层实现

2_3-numpy-cnn-mnist手写数字识别

本文目录

本文介绍常见的激活函数的前向过程及反向传播过程

依赖知识

a) 熟悉全连接层、损失函数的反向传播

b) 熟悉ReLU、LeakyReLU、PReLU、ELU、SELU

ReLU

整流线性单元Rectified Linear Unit

前向过程

R e L U (z) = {z 0 z > 0 z < = 0 (1)

$ReLU(z)=\begin{cases} z & z>0 \\ 0 & z<=0 \tag 1 \end{cases}$

后向过程

a) 我们将激活函数也看做一层, 设第 $l$ 层输出为 $z^l$ , 经过激活函数后的输出为 $z^{l+1}$

b) 记损失函数L关于第 $l$ 层的输出 $z^l$ 的偏导为 $\delta^l = \frac {\partial L} {\partial z^l}$

则损失函数L关于关于第l层的偏导如下：

δ l = \partial L \partial z l + 1 \partial z l + 1 \partial z l = δ l + 1 \partial R e L U ( z l ) \partial z l = δ l + 1 {10 z l > 0 z l < = 0 = {δ l + 1 0 z l > 0 z l < = 0 (1) (2) (3) (2)

$\begin{align} &\delta^l = \frac {\partial L} {\partial z^{l+1}} \frac {\partial z^{l+1}} {\partial z^{l}} \\ &=\delta^{l+1} \frac {\partial ReLU(z^l)} {\partial z^{l}} \\ &=\delta^{l+1} \begin{cases} 1 & z^l>0 \\ 0 & z^l<=0 \end{cases} \\ &= \begin{cases} \delta^{l+1} & z^l>0 \\ 0 & z^l<=0 \tag 2 \end{cases} \end{align}$

LeakyReLU

ReLU在取值小于零部分没有梯度，LeakyReLU在取值小于0部分给一个很小的梯度

前向过程

L e a k y R e L U (z) = {z α z z > 0 z < = 0, α = 0.1 (3)

$LeakyReLU(z)=\begin{cases} z & z>0 \\ \alpha z & z<=0, \alpha=0.1 \tag 3 \end{cases}$

后向过程

同Relu可知损失函数L关于关于第l层的偏导为:

δ l = {δ l + 1 α δ l + 1 z l > 0 z l < = 0, α = 0.1 (4)

$\begin{align}&\delta^l = \begin{cases} \delta^{l+1} & z^l>0 \\ \alpha\delta^{l+1} & z^l<=0, \alpha=0.1 \tag 4 \end{cases} \end{align}$

PReLU

参数化ReLU，形式同LeakyRelu,不过 $\alpha$ 不是固定的常量而是根据数据学习到的。

论文地址：https://arxiv.org/pdf/1502.01852.pdf

前向过程

P R e L U (z) = {z α z z > 0 z < = 0, α 是 与 z 相 同 形 状 的 变 量 (5)

$PReLU(z)=\begin{cases} z & z>0 \\ \alpha z & z<=0, \alpha是与z相同形状的变量 \tag 5 \end{cases}$

后向过程

a) 同LeakyRelu可知损失函数L关于关于第l层的偏导为:

δ l = {δ l + 1 α δ l + 1 z l > 0 z l < = 0, α 是 需 要 学 习 的 参 数 (6)

$\begin{align}&\delta^l = \begin{cases} \delta^{l+1} & z^l>0 \\ \alpha\delta^{l+1} & z^l<=0,\alpha是需要学习的参数 \tag 6 \end{cases} \end{align}$

b) 损失函数L关于关于参数 $\alpha$ 的偏导为:

\partial L \partial α = \partial L \partial z l + 1 \partial z l + 1 \partial α = δ l + 1 \partial P R e L U ( z l ) \partial α = δ l + 1 {0 z l z l > 0 z l < = 0 = {0 δ l + 1 z l z l > 0 z l < = 0 (4) (5) (6) (7)

$\begin{align} &\frac {\partial L} {\partial \alpha} = \frac {\partial L} {\partial z^{l+1}} \frac {\partial z^{l+1}} {\partial \alpha} \\ &=\delta^{l+1} \frac {\partial PReLU(z^l)} {\partial \alpha} \\ &=\delta^{l+1} \begin{cases} 0 & z^l >0 \\ z^l & z^l<=0 \end{cases} \\ &= \begin{cases} 0 & z^l >0 \\ \delta^{l+1}z^l & z^l<=0 \tag 7 \end{cases} \end{align}$

ELU

指数化ReLU，在取值小于0的部分使用指数

论文地址: https://arxiv.org/pdf/1511.07289.pdf

前向过程

E L U (z) = {z α (exp (z) - 1) z > 0 z < = 0, α = 0.1 (8)

$ELU(z)=\begin{cases} z & z>0 \\ \alpha(\exp(z)-1) & z<=0, \alpha=0.1 \tag 8 \end{cases}$

后向过程

同LeakyRelu可知损失函数L关于关于第l层的偏导为:

δ l = {δ l + 1 α δ l + 1 exp (z l) z l > 0 z l < = 0 (9)

$\begin{align}&\delta^l = \begin{cases} \delta^{l+1} & z^l>0 \\ \alpha \delta^{l+1} \exp(z^l) & z^l<=0 \tag 9 \end{cases} \end{align}$

SELU

缩放指数型线性单元, 就是对ELU加上一个缩放因子 $\lambda$

论文地址: https://arxiv.org/pdf/1706.02515.pdf

前向过程

R E L U (z) = λ {z α (exp (z) - 1) z > 0 z < = 0 (10)

$RELU(z)=\lambda\begin{cases} z & z>0 \\ \alpha(\exp(z)-1) & z<=0 \tag {10} \end{cases}$

其中 $\lambda \approx 1.0507 , \alpha \approx 1.673$ (论文中有大段证明)

后向过程

同ELU可知损失函数L关于关于第l层的偏导为:

δ l = λ {δ l + 1 α δ l + 1 exp (z l) z l > 0 z l < = 0 (11)

$\begin{align}&\delta^l = \lambda \begin{cases} \delta^{l+1} & z^l>0 \\ \alpha \delta^{l+1} \exp(z^l) & z^l<=0 \tag {11} \end{cases} \end{align}$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。