常见激活函数Activation Function的选择

最新推荐文章于 2025-09-06 15:39:16 发布

原创

最新推荐文章于 2025-09-06 15:39:16 发布 · 2.5k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习 #神经网络

本文介绍了神经网络中不同类型的激活函数，包括Sigmoid、Tanh、ReLU及其变种，讨论了它们的作用、优缺点以及可能导致的梯度消失问题。ReLU因其简单和效率成为默认选择，但其变种如PReLU、Swish等在某些情况下表现更优。Softplus和ELU等平滑函数解决了ReLU的一些问题，而shrink类函数在特定场景下有用。选择激活函数需根据具体模型需求进行尝试。

Activation Function激活函数一般会神经网络中隐层和输出层上，其中作用在输出层主要用于适配输出，比如sigmoid函数可用于生成[0,1]之间的概率估计值。而作用于隐层主要用于增加神经网络的非线性，增加了网络的表达能力，本文主要介绍隐层的激活函数的选择。

1. Sigmoid激活函数

sigmoid函数会将输入转化到0~1之间的范围，数据分布以0.5为中间，其主要的优点是处处连续可导，当输入值较大或较小时其梯度值极小，因此容易造成梯度消失的问题，特别是随着网络层数增加，各层权重参数叠加会导致问题加剧，虽然可能BatchNorm等方法可以解决这类问题，但在多数情况下，应用sigmoid激活函数并不会带来较大收益，现在更常用Relu函数等取代。

2. Tanh激活函数