【机器学习：十六、其他的激活函数】

原创于 2025-01-12 22:49:53 发布

· 1.1k 阅读

·

29

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能 #算法 #服务器 #运维 #ubuntu

机器学习专栏收录该内容

35 篇文章

订阅专栏

1. Sigmoid激活函数的替代方案

Sigmoid激活函数在神经网络中曾广泛使用，其数学公式为：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

输出范围为 (0, 1)，适合二分类问题。但随着深度学习的发展，Sigmoid函数逐渐被替代，主要原因包括：

梯度消失问题：当输入绝对值较大时，梯度趋近于零，导致权重更新困难。
非零中心问题：输出值始终为正，可能导致优化效率下降。

替代方案：

ReLU（修正线性单元）： ReLU 解决了 Sigmoid 的梯度消失问题，其公式为：
$\max(0, x)$
ReLU 的简单计算和稀疏激活特性使其成为主流激活函数。
Tanh： Tanh 是 Sigmoid 的改进版本，其输出范围为 (-1, 1)，对称于原点，减少了非零中心问题。
Leaky ReLU：在 ReLU 的基础上解决了“死神经元”问题，为负值输入引入了一个小斜率：
$\begin{cases} x, & x > 0 \\ \alpha x, & x \leq 0 \end{cases}$
其中， $\alpha$ 通常为 0.01。

2. ReLU函数：修正线性单元

ReLU（Rectified Linear Unit）激活函数被广泛用于深度学习中，其特性如下：

计算效率高：仅需简单的比较操作。
梯度消失问题改善：对正值输入的梯度始终为 1，能持续更新参数。
稀疏激活：对于负值输入输出为 0，有助于提高模型的泛化能力。

ReLU 的局限性：

死神经元问题：当权重更新时，某些神经元可能始终输出 0，导致无法参与训练。
不适用于所有问题：如 RNN 等需要负值输出的任务。

改进版本：

Leaky ReLU：为负值引入小斜率。
Parametric ReLU（PReLU）：将斜率作为可训练参数。
Exponential Linear Unit（ELU）：对负值进行指数化处理，进一步增强模型性能。

3. 常见的三种激活函数

在神经网络中，常用的三种激活函数包括 Sigmoid、Tanh 和 ReLU：

Sigmoid：
- 优点：适合二分类问题。
- 缺点：梯度消失，非零中心。
Tanh：
- 优点：对称于原点，输出范围广。
- 缺点：同样会遇到梯度消失问题。
ReLU：
- 优点：计算简单、高效，解决梯度消失问题。
- 缺点：存在死神经元问题。

选择依据：

深层网络：推荐 ReLU 或其变体。
序列建模：Tanh 通常效果更好。
二分类：Sigmoid 可作为输出层激活函数。

4. 如何选择激活函数

如何选择激活函数呢？
激活函数的选择需要考虑以下因素：

任务类型：
- 分类任务：ReLU 常用作隐藏层激活，输出层选择 Softmax。
- 回归任务：隐藏层用 ReLU，输出层选择线性函数。
网络深度：
- 浅层网络：Sigmoid 或 Tanh 可用。
- 深层网络：ReLU 或其改进版本更合适。
数据特性：
- 输入数据是否有负值分布。
- 数据归一化是否充分。

5. 选择激活函数的总结

激活函数的选择直接影响模型的收敛速度和最终性能。总结如下：

ReLU 是大多数任务的首选隐藏层激活函数。
Tanh 和 Sigmoid 较少用于隐藏层，但仍适用于特定场景。
对负值敏感的任务，优先选择 Leaky ReLU 或 ELU。

6. 发现新的激活函数趋势

随着深度学习的发展，研究者不断提出新的激活函数以解决已有问题：

Swish：由 Google 提出的激活函数，其公式为：
$\cdot \sigma(x)$
Swish 在深度网络中性能优于 ReLU。
Mish：更平滑的激活函数，适合高性能模型。

7. 为什么需要激活函数

激活函数的作用主要体现在以下几个方面：

引入非线性：帮助神经网络逼近复杂的非线性映射。
控制输出范围：防止输出值过大或过小，提升模型稳定性。
梯度信息传递：选择合适的激活函数可避免梯度消失问题。

总结：激活函数是神经网络的核心，选择得当能显著提升模型性能。

博客等级

码龄7年

136
原创

2223
点赞

1968
收藏

1024
粉丝

关注

私信

热门文章

分类专栏

ORB-SLAM2 11篇
视觉惯性SLAM 21篇
机器学习 35篇
Ubuntu操作系统 12篇
计算机操作系统 9篇
数据结构 8篇
视觉SLAM 15篇
系统运维 5篇
算法 14篇
ORB-SLAM3 1篇
C++ 1篇
IMU 4篇

展开全部收起

上一篇：: 【机器学习：十五、神经网络的编译和训练】

下一篇：: 【机器学习：十七、多分类问题和Softmax函数】

最新评论

【Ubuntu 20.04.6（二）：更新英伟达显卡驱动】
2201_75465782: 牛！！！！看了无数nvidia 驱动安装出现黑屏问题，你这篇文章避免了。重装了系统，直接按照步骤来就行。
【视觉SLAM:十二、SLAM的现在与未来】
赵4老师: SLAM啥时候能象人一样，夏天去哈尔滨脑海中记住的地图，等冬天白雪皑皑时再去能不迷路；旱季去淮河洼地脑海中记住的地图，等雨季河水泛滥淹没八成地区后再去能不迷路？
【算法（三·六）：分治思想——二分查找】
y0219000: 写的好棒
【算法（四·三）：动态规划思想——最长公共子序列问题】
优快云-Ada助手: 恭喜您写了第14篇博客！标题中的动态规划思想和最长公共子序列问题吸引了我的注意。在这篇博客中，您详细介绍了动态规划解决最长公共子序列问题的思路吗？非常值得赞赏！我想对您的持续创作表示祝贺，并期待看到您在未来的文章中继续探索更多关于动态规划的应用。或许您可以考虑分享一些动态规划在其他经典问题中的应用，或是深入探讨一些高级的动态规划算法。无论您选择写什么主题，我都相信您会以谦虚的态度给我们带来更多宝贵的知识。加油！
【算法（一·一）：概论——算法的复杂度介绍】
优快云-Ada助手: 恭喜您写下了第13篇博客，标题为“【算法（一·一）：概论——算法的复杂度介绍】”！持续创作是非常了不起的事情，您的努力和热情确实值得称赞。文章标题很吸引人，概述了算法的复杂度，这是一个非常重要的主题。我非常期待能够阅读您的博客，了解更多关于算法复杂度的知识。在下一步的创作中，或许您可以考虑更深入地探讨一些具体的算法案例，通过实际的例子来展示不同复杂度的算法是如何运作的。这样可以使读者更加直观地理解并应用这些知识。谦虚地说，我相信您将能够以您独特的方式继续为读者带来更多有趣、有用的内容。期待您的下一篇博客！

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。