优化器和激活函数有何区别？

最新推荐文章于 2025-03-27 20:38:31 发布

Captain823Jack

最新推荐文章于 2025-03-27 20:38:31 发布

阅读量749

点赞数 12

CC 4.0 BY-SA版权

分类专栏：深度学习随想录文章标签：人工智能算法 python 神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Captain823Jack/article/details/144185168

深度学习随想录专栏收录该内容

15 篇文章

订阅专栏

优化器（Optimizer）
- 定义与作用：
  - 优化器是用于更新神经网络模型参数的工具。在训练神经网络时，模型通过前向传播计算预测值，然后根据预测值和真实标签之间的损失函数计算损失。优化器的作用是根据损失函数的梯度信息来调整模型的参数，使得损失函数的值逐渐减小，从而让模型的预测结果更加准确。例如，在梯度下降优化算法中，优化器会根据损失函数对每个参数的梯度，以一定的步长（学习率）来更新参数。
- 常见类型及特点：
  - 随机梯度下降（SGD）：每次随机选取一个样本计算梯度并更新参数。优点是计算简单、内存占用少；缺点是收敛速度慢，容易在损失函数的局部最优解附近震荡。例如，在处理大规模数据集时，它的随机性可能导致收敛路径不稳定。
  - 动量（Momentum）优化器：在梯度下降的基础上，考虑了之前梯度的累积效应，就像小球在斜坡上滚动一样，有一定的 “惯性”。这种优化器能够加速收敛，特别是在处理一些比较复杂的损失函数曲面时，能帮助模型更快地跨越局部最优解，朝着全局最优解的方向前进。
  - Adagrad：它能够自适应地为每个参数调整学习率。根据参数在之前更新过程中的梯度平方和来调整学习率，对于频繁更新的参数，学习率会逐渐变小，适用于处理稀疏数据。但是，随着训练的进行，学习率可能会变得过小，导致训练提前停止。
  - Adadelta：是 Adagrad 的改进版本，它解决了 Adagrad 学习率过度衰减的问题。通过使用一个移动窗口来计算梯度平方和的均值，使得学习率的调整更加合理，能够在训练过程中保持相对稳定的学习率，从而让训练过程更加平滑。
  - Adam（自适应矩估计）：结合了动量和自适应学习率的优点。它计算梯度的一阶矩估计（类似于动量）和二阶矩估计，然后根据这两个估计来调整每个参数的学习率。Adam 在大多数情况下都能取得较好的效果，收敛速度快且相对稳定，是目前深度学习中广泛使用的优化器。
激活函数（Activation Function）
- 定义与作用：
  - 激活函数是神经网络中的一个非线性函数，它作用于神经元的输出。在神经网络中，神经元接收多个输入，通过加权求和后得到一个线性组合的值。激活函数对这个线性组合的值进行非线性变换，从而增加神经网络的非线性表达能力。如果没有激活函数，多层神经网络就等价于一个线性回归模型，无法处理复杂的非线性问题。例如，在图像分类任务中，图像数据和类别之间的关系通常是非线性的，激活函数能够帮助模型更好地拟合这种复杂关系。
- 常见类型及特点：
  - Sigmoid 函数：公式为
    输出范围在之间，可以将任意实数映射为一个概率值，常用于二分类问题的输出层。它的优点是函数光滑，导数容易计算，导数为。缺点是存在梯度消失问题，当的值过大或过小（即输入偏离零点较远）时，导数趋近于0，在深层神经网络的反向传播过程中，梯度更新非常缓慢，影响训练效率。
  - Tanh 函数（双曲正切函数）：公式为
    输出范围在之间，是以为中心的，这在某些情况下有助于模型收敛，因为数据的均值更接近。它也是光滑函数，导数容易计算，导数为，同样存在梯度消失问题，但相对 Sigmoid 函数有所缓解。
  - ReLU 函数（修正线性单元）：公式为
    计算简单高效，只需要判断输入是否大于，如果大于则输出等于输入，否则输出为。有效的缓解了梯度消失问题，在x<0的区域，梯度恒为0，这使得在反向传播过程中，梯度能够很好地传播，加快训练速度。缺点是可能会导致神经元 “死亡”，当一个神经元的输入在训练过程中一直小于0时，它的输出始终为0，对应的权重将无法更新，这个神经元就相当于 “死亡” 了。
  - Leaky ReLU 函数：公式为
    其中α是一个很小的正数（通常）。它是 ReLU 函数的改进版本，解决了 ReLU 函数中神经元可能 “死亡” 的问题。在时，仍然有一个较小的斜率，允许有一定的梯度通过，使得神经元不会完全 “死亡”。计算也相对简单，并且继承了 ReLU 函数在时梯度为的优点，能够有效地传递梯度，加快训练速度。
  - Softmax 函数：公式为
    输出是一个概率分布，所有输出值之和为1。这使得它非常适合用于多分类问题的输出层，将模型输出解释为每个类别对应的概率。它对输入的微小变化比较敏感，能够很好地反映出不同类别之间的相对概率变化。
两者的区别
- 功能层面：
  - 优化器主要关注模型参数的更新，目的是使损失函数最小化。它通过利用损失函数的梯度信息来调整参数，决定了模型在训练过程中如何 “学习”。而激活函数主要是对神经元的输出进行非线性变换，增加模型的非线性表达能力，使模型能够处理复杂的非线性问题。
- 作用阶段：
  - 激活函数在神经网络的每个神经元的输出端起作用，在正向传播过程中，对神经元的线性组合输出进行变换。优化器则在反向传播阶段起作用，根据损失函数对参数的梯度来更新参数，调整模型的权重。
- 对模型的影响：
  - 激活函数的选择会影响模型的表达能力和收敛速度。不同的激活函数有不同的非线性特性，合适的激活函数能够帮助模型更好地拟合数据。优化器的选择会影响模型收敛的速度、稳定性以及是否能够找到全局最优解（或较好的局部最优解）。例如，一个好的优化器可以加速模型训练，避免陷入局部最优解的困境。

博客等级

码龄5年

56
原创

886
点赞

948
收藏

519
粉丝

关注

私信

热门文章

分类专栏

上一篇：: 前馈神经网络和反馈神经网络的区别是什么？

下一篇：: w03_nlp大模型训练·处理字符串

最新评论

代码随想录算法训练营day03 | 203.移除链表元素， 206.翻转链表， 24. 两两交换链表中的节点
优快云-Ada助手: 非常棒的博客，看到你分享的算法题目我也感到很有启发。恭喜你已经坚持写了三篇博客，很期待你接下来的创作。建议你可以分享一些算法实战经验，让大家更好地了解如何将算法应用到实际中。继续加油！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
代码随想录算法训练营day06 | 1. 两数之和，454. 四数相加 II，15. 三数之和，18. 四数之和
优快云-Ada助手: 恭喜您在“代码随想录算法训练营”中的第6篇博客已经成功发表！您的博客涵盖了两数之和、四数相加 II、三数之和和四数之和四个重要的算法题目，对于想要提升算法能力的读者来说是非常有用的。我相信您的博客对很多人都有启发作用，能够让他们更好地理解这些算法。同时，我也希望您能够继续保持创作的热情，不断地更新您的博客。作为下一步的创作建议，我建议您可以在博客中分享一些自己的算法解题心得，或是对一些算法问题的深入探讨。这样不仅可以帮助读者更好地掌握算法知识，也可以提升自己的算法能力。最后，我想说一声“加油！”，期待您更多精彩的博客作品。优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
代码随想录算法训练营day01 | 704. 二分查找，27. 移除元素
优快云-Ada助手: 推荐算法技能树：https://edu.youkuaiyun.com/skill/algorithm?utm_source=AI_act_algorithm
代码随想录算法训练营day02 | 977.有序数组的平方，209.长度最小的子数组，59.螺旋矩阵II
优快云-Ada助手: 算法技能树或许可以帮到你：https://edu.youkuaiyun.com/skill/algorithm?utm_source=AI_act_algorithm

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。