LSTM思想解析—论文精读(Learning to Forget: Continual Prediction with LSTM)

LSTM遗忘门论文解析:原理与算法

        本文对LSTM的另一篇论文进行解析:Learning to Forget: Continual Prediction with LSTM(Felix A. Gers,1999)。该论文是在论文Long Short-term Memory (Sepp Hochreiter,1997)的基础上提出了遗忘门(forget gate)。

一、为什么要提出遗忘门

       Sepp Hochreiter在1999年提出了LSTM算法,该算法是对RNN的改进,论文具体解析详见LSTM思想解析—论文精读(Long Short-Term Memery)Long Short-Term MemeryLSTM思想解析—论文精读(Long Short-Term Memery)。当输入到LSTM中的数据为连续的流数据,这些数据并未预先分割成一个个具有明确起点和终点的子训练集,LSTM就无法自行判断什么时候将记忆单元的状态进行重置,这就会导致状态一直无限地增长,最后导致LSTM无法工作了。

       下面通过数学公式来说明LSTM存在的不足:

图1
图1

       上图为论文Long Short-term Memory 提出的LSTM架构。net_{c}表示记忆单元的输入,net_{in}表示输入门,net_{out}表示输出门,s_{c}表示记忆单元状态。那么:

 net_{out_{j}}=\sum_{m}^{}w_{out_{j}m}y^{m}(t-1);y^{out_{j}}(t)=f_{out_{j}}(net_{out_{j}}(t))                             (1)

 net_{in_{j}}=\sum_{m}^{}w_{in_{j}m}y^{m}(t-1);y^{in_{j}}(t)=f_{in_{j}}(net_{in_{j}}(t))                                     (2)

       其中,下标j代表记忆单元块的索引(即第j个记忆单元块),下标v表示记忆单元块中的第v个记忆单元。因此,c_{j}^{v}就表示第j个记忆单元块中的第v个记忆单元。w_{lm}表示从神经元m到神经元l的权重。

 激活函数f是sigmoid函数:f(x)=\frac{1}{1+e^{-x}}                                                                    (3)

       该记忆单元自身的输入(t-1时刻的输出,变为t时刻该记忆单元的输入):

  net_{c_{j}^{v}}(t)=\sum_{m}^{}w_{c_{j}^{v}m}y^{m}(t-1)                                                                               (4)

  激活函数g是sigmoid函数的变种:g(x)=\frac{4}{1+e^{-x}}-2                                                 (5)

  记忆单元状态:  s_{c_{j}^{v}}(0)=0;s_{c_{j}^{v}}(t)=s_{c_{j}^{v}}(t-1)+y^{in_{j}}(t)g(net_{c_{j}^{v}}(t))   对于t>0 (6)

  记忆单元输出:y^{c_{j}^{v}}(t)=y^{out_{j}}(t)h(s_{c_{j}^{v}}(t))                                                                (7)

   h为激活函数h(x)=\frac{2}{1+e^{-x}}-1                                                                                   (8)

        假定LSTM网络有一个输入层、一个隐藏层(由记忆单元组成)和一个输出层,那输出层的第k个神经元输出为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值