LSTM思想解析—论文精读（Learning to Forget: Continual Prediction with LSTM）

原创

已于 2025-04-06 12:04:02 修改 · 1.6k 阅读

·

31

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#lstm #人工智能 #机器学习

于 2025-03-25 11:51:30 首次发布

本文对LSTM的另一篇论文进行解析：Learning to Forget: Continual Prediction with LSTM(Felix A. Gers，1999)。该论文是在论文Long Short-term Memory (Sepp Hochreiter,1997)的基础上提出了遗忘门(forget gate)。

一、为什么要提出遗忘门

Sepp Hochreiter在1999年提出了LSTM算法，该算法是对RNN的改进，论文具体解析详见LSTM思想解析—论文精读（Long Short-Term Memery）Long Short-Term MemeryLSTM思想解析—论文精读（Long Short-Term Memery）。当输入到LSTM中的数据为连续的流数据，这些数据并未预先分割成一个个具有明确起点和终点的子训练集，LSTM就无法自行判断什么时候将记忆单元的状态进行重置，这就会导致状态一直无限地增长，最后导致LSTM无法工作了。

下面通过数学公式来说明LSTM存在的不足：

图1

上图为论文Long Short-term Memory 提出的LSTM架构。 $net_{c}$ 表示记忆单元的输入， $net_{in}$ 表示输入门， $net_{out}$ 表示输出门， $s_{c}$ 表示记忆单元状态。那么：

$net_{out_{j}}=\sum_{m}^{}w_{out_{j}m}y^{m}(t-1);y^{out_{j}}(t)=f_{out_{j}}(net_{out_{j}}(t))$ （1）

$net_{in_{j}}=\sum_{m}^{}w_{in_{j}m}y^{m}(t-1);y^{in_{j}}(t)=f_{in_{j}}(net_{in_{j}}(t))$ （2）

其中，下标j代表记忆单元块的索引（即第j个记忆单元块），下标v表示记忆单元块中的第v个记忆单元。因此， $c_{j}^{v}$ 就表示第j个记忆单元块中的第v个记忆单元。 $w_{lm}$ 表示从神经元m到神经元l的权重。

激活函数f是sigmoid函数： $f(x)=\frac{1}{1+e^{-x}}$ （3）

该记忆单元自身的输入（t-1时刻的输出，变为t时刻该记忆单元的输入）：

$net_{c_{j}^{v}}(t)=\sum_{m}^{}w_{c_{j}^{v}m}y^{m}(t-1)$ （4）

激活函数g是sigmoid函数的变种： $g(x)=\frac{4}{1+e^{-x}}-2$ （5）

记忆单元状态： $s_{c_{j}^{v}}(0)=0;s_{c_{j}^{v}}(t)=s_{c_{j}^{v}}(t-1)+y^{in_{j}}(t)g(net_{c_{j}^{v}}(t))$ 对于t>0 （6）

记忆单元输出： $y^{c_{j}^{v}}(t)=y^{out_{j}}(t)h(s_{c_{j}^{v}}(t))$ （7）

h为激活函数 $h(x)=\frac{2}{1+e^{-x}}-1$ （8）

假定LSTM网络有一个输入层、一个隐藏层（由记忆单元组成）和一个输出层，那输出层的第k个神经元输出为：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。