为了解决深度神经网络中的梯度消失问题,提出了一种特殊的RNN模型——长短期记忆网络(Long Short-Term Memory networks, LSTM),能够有效的传递和表达长时间序列中的信息并且不会导致长时间前的有用信息被忽略。
长短时记忆网络原理图:参考LSTM Networks
原理图中的图形及其含义:一张图理解LSTM参数 和 timestep、inputsize、batchsize的区别
- 黄色矩形框是神经网络层,常见的激活函数有sigmoid,tanh和线性修正单元relu;
- 粉色圆圈表示对向量进行点向运算,如向量加法、点乘