pytorch学习（四）——激活函数

深度学习中的激活函数：Sigmoid、Tanh、ReLU与LeakyReLU

原创已于 2022-11-12 19:36:19 修改 · 2.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#1024程序员节

于 2022-10-24 23:05:46 首次发布

深度学习专栏收录该内容

24 篇文章

订阅专栏

本文介绍了深度学习中常用的四种激活函数：Sigmoid、Tanh、ReLU和LeakyReLU。Sigmoid在二分类问题中常见，但存在梯度消失问题；Tanh的输出范围在-1到1，常优于Sigmoid；ReLU是隐藏层的常用选择，简化了梯度问题；LeakyReLU是对ReLU的改进，允许负区间的微小梯度。这些函数对于神经网络学习非线性模型至关重要。

介绍了模型层后，接下来我们就看看模型层中各种各样的激活函数吧。

激活函数，就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。激活函数对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。

如果不用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合，这种情况就是最原始的感知机。没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后，无非还是个矩阵相乘罢了。

如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

以下介绍几种pytorch中常见的激活函数，实际过程中用的都是这四个，其他什么基本没怎么见到。

1. Sigmoid

Sigmoid是将数据限制在0到1之间。但是，由于Sigmoid的最大的梯度为0.25，随着使用sigmoid的层越来越多，网络就变得很难收敛。因此，对深度学习，ReLU及其变种被广泛使用避免收敛困难的问题。

一般在二分类中选择，因为其输出值总在0-1之间，非常符合二分类的特点，Pytorch 中的调用形式为 torch.nn.Sigmoid()。

$S i g m o i d$ 函数的表达式如下：
$\begin{aligned} Sigmoid(x)= \sigma(x)=\frac{1}{1+e^{-x}} \end{aligned}$
$S i g m o i d$ 函数的图像如下图所示：
在这里插入图片描述

2. Tanh

Tanh就是双曲正切，其输出的数值范围为-1到1，除二分类中，tanh函数总是优于sigmoid函数，Pytorch 中的调用形式为 torch.nn.Tanh()。

$T a n h$ 函数的表达式如下：
$\begin{aligned} tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} \end{aligned}$
$T a n h$ 函数的图像如下图所示：
在这里插入图片描述

3. ReLU

Pytorch 中的调用形式为 torch.nn.ReLU()，在隐藏层上不确定使用哪个激活函数，那么通常会使用Relu激活函数。

$R e L U$ 函数的表达式如下：
$ReLU(x)=\left\{ \begin{aligned} &0,&x \le 0 \\ &x,&x>0 \end{aligned} \right.$
$R e L U$ 函数的图像如下图所示：
在这里插入图片描述

4. LeakyReLU

这个函数通常比Relu激活函数效果要好，尽管在实际中Leaky ReLu使用的并不多，Pytorch 中的调用形式为 torch.nn.LeakyReLU()。

$L e a k y R e L U$ 函数的表达式如下：
$LeakyReLU(x)=\left\{ \begin{aligned} &0,&x \le 0\\ &ax,&x>0 \end{aligned} \right.$
可以选择是否传入参数 a ，默认是 $0.01$ ，若将 a 改为 $0.1$ ，可以将参数传入为 torch.nn.LeakyReLU(0.1) 。