递归神经网络引入了时序的反馈机制,在语音、音乐等时序信号的分析上有重要的意义。
Hochreiter(应该是Schmidhuber的弟子)在1991年分析了bptt带来的梯度爆炸和消失问题,给学习算法带来了梯度
震荡和学习困难等问题;
Hochreater和Schmidhuber在1997年提出了LSTM的网络结构,引入CEC单元解决bptt的梯度爆炸和消失问题;
Felix Gers(Schmidhuber是指导人之一)2001年的博士论文进一步改进了lstm的网络结构,增加了forget gate和peephole;
Alex Graves(Schmidhuber的弟子)2006年提出了lstm的ctc训练准则。
第一步:RNN->基本lstm
参考文献[1]和[2]
问题
问题一:gradient
BPTT学习算法存在梯度爆炸和消失问题(gradient blow up or vanish),简单通过local error flow分析如下:
对RNN的隐层进行unfolding后,可以得到如下的递推关系:
ϑ j