PyTorch深度学习教程：神经网络梯度计算与反向传播实战技巧

孔朦煦

于 2025-06-06 09:07:07 发布

阅读量233

点赞数 5

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_00849/article/details/148465529

PyTorch深度学习教程：神经网络梯度计算与反向传播实战技巧

NYU-DLSP20 NYU Deep Learning Spring 2020 项目地址: https://gitcode.com/gh_mirrors/pyt/pytorch-Deep-Learning

神经网络梯度计算原理

在深度学习中，理解梯度计算是掌握神经网络训练的核心。让我们从一个具体例子开始，探讨如何计算神经网络中各模块的梯度。

反向传播的图形化理解

考虑一个函数G(w)输入到损失函数C中的情况，我们可以用计算图来表示这个过程。通过雅可比矩阵的乘法运算，我们能够将这个前向计算图转换为反向传播梯度的图。

在梯度计算图中，从最上方的节点开始，梯度计算遵循链式法则：

$$ \frac{\partial C(y,\bar{y})}{\partial w}=1 \cdot \frac{\partial C(y,\bar{y})}{\partial\bar{y}}\cdot\frac{\partial G(x,w)}{\partial w} $$

这里需要注意维度匹配问题：

$\frac{\partial C(y,\bar{y})}{\partial w}$ 是1×N的行向量
$\frac{\partial C(y,\bar{y})}{\partial \bar{y}}$ 是1×M的行向量
$\frac{\partial G(x,w)}{\partial w}$ 是M×N的矩阵

基础神经网络模块的梯度计算

1. 线性模块

线性变换Y=W·X的梯度计算：

对输入的梯度：$\frac{dC}{dX} = W^\top \cdot \frac{dC}{dY}$
对权重的梯度：$\frac{dC}{dW} = \frac{dC}{dY} \cdot X^\top$

2. ReLU激活函数

ReLU函数y=max(0,x)的梯度：

当x>0时，梯度为$\frac{dC}{dY}$
当x≤0时，梯度为0

3. 复制模块

复制操作(Y₁=X, Y₂=X)的梯度：

反向传播时梯度相加：$\frac{dC}{dX}=\frac{dC}{dY_1}+\frac{dC}{dY_2}$

4. 加法模块

加法操作Y=X₁+X₂的梯度：

两个输入的梯度都等于输出的梯度

5. 最大值模块

最大值操作Y=max(X₁,X₂)的梯度：

只有较大的输入会获得梯度

SoftMax与LogSoftMax比较

SoftMax的问题

SoftMax常用于多分类问题，将输出转换为概率分布： $$ y_i = \frac{\exp(x_i)}{\sum_j \exp(x_j)} $$

然而，SoftMax存在梯度消失问题，特别是在极端值时（非常大或非常小的输入），这会导致网络训练停滞。

LogSoftMax解决方案

LogSoftMax结合了对数运算，有效缓解了梯度消失： $$ \log(y_i) = x_i - \log(\sum_j \exp(x_j)) $$

其等价形式： $$ \log\left(\frac{\exp(s)}{\exp(s) + 1}\right)= s - \log(1 + \exp(s)) $$

这种形式避免了数值饱和，保持了良好的梯度流动。

反向传播实用技巧

1. 激活函数选择

优先使用ReLU而非sigmoid或tanh
ReLU的稀疏激活特性有助于减轻过拟合

2. 损失函数选择

分类问题使用交叉熵损失
配合LogSoftMax作为网络最后一层

3. 训练策略

使用小批量随机梯度下降
每个epoch前打乱数据顺序
输入数据归一化（零均值，单位方差）

4. 学习率调整

训练过程中逐步降低学习率
考虑使用自适应优化器如Adam

5. 正则化技术

L2正则化（权重衰减）
L1正则化（产生稀疏权重）
Dropout（随机失活部分神经元）

6. 权重初始化

使用恰当的初始化方法（如Kaiming初始化）
保持各层激活值的方差稳定

总结

掌握神经网络梯度计算和反向传播是深度学习的基础。通过理解各基础模块的梯度计算原理，选择合适的激活函数和损失函数，并应用各种训练技巧，可以显著提高模型训练效果。在实际应用中，这些知识将帮助你更好地调试和优化神经网络模型。

NYU-DLSP20 NYU Deep Learning Spring 2020 项目地址: https://gitcode.com/gh_mirrors/pyt/pytorch-Deep-Learning

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

孔朦煦 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。