动手学深度学习读书笔记-正向传播、反向传播和计算图

最新推荐文章于 2025-05-08 13:21:39 发布

wxl1999

最新推荐文章于 2025-05-08 13:21:39 发布

阅读量534

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/wxl1999/article/details/95239451

20 篇文章

订阅专栏

本文介绍了深度学习中的正向传播、反向传播和计算图。正向传播从输入层到输出层计算并存储中间变量；反向传播依据链式法则，从输出层到输入层计算目标函数有关各层中间变量及参数的梯度。训练模型时交替进行正反向传播，训练比预测更占内存，深层网络大批次训练易超内存。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正向传播、反向传播和计算图

在这里插入图片描述

在模型参数初始化完成后，我们交替地进行正向传播和反向传播，并根据反向传播计算的梯度迭代模型参数。
既然我们在反向传播中使用了正向传播中计算得到的中间变量来避免重复计算，那么这个复用也导致正向传播结束后不能立即释放中间变量内存。这也是训练要比预测占用更多内存的一个重要原因。
另外需要指出的是，这些中间变量的个数大体上与网络层数线性相关，每个变量的大小跟批量大小和输入个数也是线性相关的，它们是导致较深的神经网络使用较大批量训练时更容易超内存的主要原因。