深度学习中的激活函数、损失函数、优化算法

最新推荐文章于 2025-03-24 11:37:07 发布

Chealkeo

最新推荐文章于 2025-03-24 11:37:07 发布

阅读量1.4k

点赞数 1

分类专栏： DL-def 文章标签：自然语言处理深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43666478/article/details/106723800

版权

本文详细介绍了深度学习中的激活函数，包括sigmoid、tanh、relu和gelu等，讨论了它们的特点和应用场景。此外，还探讨了分类和回归问题中的损失函数，以及优化算法如随机梯度下降SGD、Adam和牛顿法，旨在理解其工作原理和对模型训练的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习中的激活函数、损失函数、优化算法

DL小将

DL小将

本文对深度学习中的激活函数、损失函数和常用到的优化算法进行总结分析、记录学习。优化算法用来更新模参数，经过一系列计算并通过激活函数得到的输出可以用于计算损失函数，目标是使损失函数尽可能小。

激活函数

现实生活中真实数据之间往往是复杂的非线性的关系，而不是简单的线性关系。深度学习中通过神经元的计算往往是关于权值矩阵和偏置项的线性计算，所以有必要在神经网络中引入非线性转换，强化神经网络的学习能力。

sigmoid

sigmoid函数把输入映射到0到1，适合对应到希望输出为概率的处理。导数的取值范围是0到0.25。
函数公式导数公式
优点：平滑、易于求导。
缺点：由于在正反向传播中都涉及幂运算和除法，所以计算量比较大。此外，sigmoid的输出不是0均值，这将导致后一层的神经元将得到上一层输出的非0均值信号作为输入，随着网络的加深，会改变数据的原始分布。
（关于0均值：使得在反向传播参数更新梯度时避免神经元的w都朝一个方向更新，产生“z型更新”现象，加快网络收敛速度。使用sigmoid函数时，对输入数据进行零均值化可以避免第一层神经网络的"z型更新问题"。但是由于sigmoid的输出

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。