神经网络的梯度由哪几部分组成？

courniche

于 2025-01-08 07:59:14 发布

阅读量787

点赞数 13

文章标签：神经网络人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/courniche/article/details/144992499

版权

（本文仅代表笔者个人的观点，如有偏颇，欢迎批评指正）

神经网络的梯度下降法，是神经网络更新参数的重要方法，通过梯度，参数能够找到损失函数的最优解。那么问题来了：梯度到底是哪儿来的？受谁的影响？当梯度过大或过小的时候，会产生什么问题？

一、梯度由哪几部分组成？

我们先看看梯度的定义和表达式： $\frac{\partial L}{\partial w_{i}}$ ，梯度是权重 $w_{i}$ 对损失函数 $L$ 的偏导数，也就是 $L$ 的变化率和变化方向。把梯度的表达式用复合函数求导数的链式法则展开：

$\frac{\partial L}{\partial w_{i}}=\frac{\partial L}{\partial a}\cdot \frac{\partial a}{\partial z}\cdot \frac{\partial z}{\partial w_{i}}$

可以看到， $w_{i}$ 对 $L$ 的梯度由3个部分组成：

1、 $\frac{\partial L}{\partial a}$ 是激活函数 $a$ 对损失函数 $L$ 的梯度；

2、 $\frac{\partial a}{\partial z}$ 是加权输入 $z$ 对激活函数 $a$ 的梯度；

3、 $\frac{\partial z}{\partial w_{i}}$ 是权重 $w_{i}$ 对加权输入 $z$ 的梯度。

这3个部分共同提供了权重 $w_{i}$ 对损失函数 $L$ 的梯度。

二、梯度主要受谁的影响更大？

当训练一个网络最初的预设参数 $w$ 和 $b$ 以及标签 $y$ 都确定的情况下，损失函数 $L$ 和加权输入 $z$ 受到 $w$ 和 $b$ 的直接影响，是不能随意调整的，对梯度的作用是动态变化但也是相对稳定的，在每一次参数更新的过程中，对梯度数值的影响是有限的。激活函数 $a$ 与神经网络相对独立，可以根据网络实际情况来选择，对梯度的影响更大，因此激活函数的选择是训练神经网络的一个重要因素。

当然输入数据的特征和分布，以及损失函数的选择也会影响梯度，我们这里暂不讨论。

三、梯度过大或过小会产生什么问题？

在深层神经网络中，激活函数（如 Sigmoid、Tanh）的导数较小，反向传播时梯度不断缩小，导致深层权重更新几乎停止，就产生了梯度消失的问题。

在某些初始化或权重较大时，梯度会不断累积放大，导致训练过程发散，就产生了梯度爆炸的问题。

因此，提高梯度的传播效率和稳定性，也是深度学习研究的热点。我们在实际应用训练的过程中也应当综合考虑实际数据的情况，选择合适的激活函数来优化神经网络的训练过程。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

courniche 鼓励就是动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。