lstm 一 演化之路

本文探讨了RNN的梯度消失问题,介绍了Hochreiter和Schmidhuber在1997年提出的LSTM网络结构,如何通过CEC单元解决这一问题。Felix Gers在2001年的改进引入了遗忘门,并在后续Alex Graves的2006年工作中,使用CTC训练准则进一步发展了LSTM。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

                       

递归神经网络引入了时序的反馈机制,在语音、音乐等时序信号的分析上有重要的意义。
Hochreiter(应该是Schmidhuber的弟子)在1991年分析了bptt带来的梯度爆炸和消失问题,给学习算法带来了梯度
震荡和学习困难等问题;
Hochreater和Schmidhuber在1997年提出了LSTM的网络结构,引入CEC单元解决bptt的梯度爆炸和消失问题;
Felix Gers(Schmidhuber是指导人之一)2001年的博士论文进一步改进了lstm的网络结构,增加了forget gate和peephole
Alex Graves(Schmidhuber的弟子)2006年提出了lstm的ctc训练准则

第一步:RNN->基本lstm

参考文献[1]和[2]

问题

问题一:gradient

BPTT学习算法存在梯度爆炸和消失问题(gradient blow up or vanish),简单通过local error flow分析如下:
对RNN的隐层进行unfolding后,可以得到如下的递推关系:

ϑ j 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值