基于时间的反向传播算法和梯度消失 -part3

最新推荐文章于 2024-03-13 15:19:37 发布

原创

最新推荐文章于 2024-03-13 15:19:37 发布 · 4k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#nlp #BPTT #RNN #LSTM

本文深入解析RNN中Backpropagation Through Time（BPTT）算法，探讨梯度消失问题及其对长期依赖学习的影响。通过分析，展示了梯度消失的原因，以及为何在长序列中标准RNN训练困难。同时，介绍了LSTM和GRU作为解决此问题的有效模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文翻译自
 前文从零开始实现了RNN，但是没有详细介绍Backpropagation Through Time (BPTT) 算法如何实现梯度计算。这篇文章将详细介绍BPTT。之后会分析梯度消失问题，它导致了LSTM和GRU的发展，这是两个在NLP领域最为流行和有效的模型。
梯度消失问题在1991年被发现，但在近来受到关注，因为深度框架的广泛应用；
为了充分理解这个教程，我建议要熟悉部分分化和基本反向传播算法的工作机制相关教程part1 part2 part3

BACKPROPAGATION THROUGH TIME (BPTT)
快速重述RNN中的基本公式
这里写图片描述
yt是在step t正确的单词输出，yt^指预测值。
我们还是传统的认为一个完整的序列（句子）是一个训练样本，所以总的误差为每一步的误差之和；

我们的目标是计算有关U，V，W的损失函数的梯度，使用随机梯度下降算法学习得到更好的参数值。就像我们误差相加，我们也把每一个样本的每一步中的梯度值相加
这里写图片描述
为了计算梯度，我们使用了分化链规则。

上述，