基于时间的反向传播算法和梯度消失 -part3

本文深入解析RNN中Backpropagation Through Time(BPTT)算法,探讨梯度消失问题及其对长期依赖学习的影响。通过分析,展示了梯度消失的原因,以及为何在长序列中标准RNN训练困难。同时,介绍了LSTM和GRU作为解决此问题的有效模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文翻译自
前文从零开始实现了RNN,但是没有详细介绍Backpropagation Through Time (BPTT) 算法如何实现梯度计算。这篇文章将详细介绍BPTT。之后会分析梯度消失问题,它导致了LSTM和GRU的发展,这是两个在NLP领域最为流行和有效的模型。
梯度消失问题在1991年被发现,但在近来受到关注,因为深度框架的广泛应用;
为了充分理解这个教程,我建议要熟悉部分分化和基本反向传播算法的工作机制相关教程part1part2part3

BACKPROPAGATION THROUGH TIME (BPTT)
快速重述RNN中的基本公式
这里写图片描述
yt是在step t正确的单词输出,yt^指预测值。
我们还是传统的认为一个完整的序列(句子)是一个训练样本,所以总的误差为每一步的误差之和;
这里写图片描述
我们的目标是计算有关U,V,W的损失函数的梯度,使用随机梯度下降算法学习得到更好的参数值。就像我们误差相加,我们也把每一个样本的每一步中的梯度值相加
这里写图片描述
为了计算梯度,我们使用了分化链规则。
这里写图片描述
上述,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值