基于mxnet的LSTM实现

最新推荐文章于 2023-02-28 10:06:01 发布

无用技术研究所

最新推荐文章于 2023-02-28 10:06:01 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_44546360/article/details/89876951

RNN理论基础

rnn_base.png

RNN的基本结构如上左图所示，输出除了与当前输入有关，还与上一时刻状态有关。RNN结构展开可视为上右图，传播过程如下所示：

整个结构共享参数U,W,V。

当输入很长时，RNN的状态中的包含最早输入的信息会被“遗忘”，因此RNN无法处理非常长的输入

lstm_base.png

LSTM为特殊为保存长时记忆而设计的RNN单元，传递过程如下：

遗忘：决定上一时刻的状态有多少被遗忘，由遗忘门层完成，有$f_{n} = sigmoid(W_{f} * [h_{n-1},x_{n}] + b_{f})$，该结果输出的矩阵与$C_{n-1}$对应位置相乘，对状态起衰减作用
输入：决定哪些新信息被整合进状态，由输入值层和输入门层完成：
- 输入值层决定新输入数据，有$CX_{n} = tanh(W_{c} * [h_{n - 1},x_{n}] + b_{c})$
- 输入门层决定哪些新数据被整合入状态，有$I_{n} = sigmoid(W_{i} * [h_{n - 1},x_{n}] + b_{i})$
- 最终汇入状态的输入有$C_{n} = C_{n-1} * f_{n} + I_{n} * CX_{n}$
输出：决定哪些状态被输出，由输出门层完成：
- 输出门层决定哪些状态被输出，有$O_{n} = sigmoid(W_{o} * [h_{n-1},x_{n}] + b_{o})$
- 最终输入为$h_{n} = O_{n} * tanh(C_{n})$

参数一共有4对，如下表所示