LSTM 长短期记忆网络
由于长序列的长期依赖问题,当序列很长,RNN难以学习并保持序列早期时间步的信息。
LSTM(Long Short-Term Memory) 引入了细胞状态的概念,通过门控机制,控制信息保留的程度。
LSTM结构

LSTM的关键是细胞状态c,也就是图中最上方的一条贯穿整个链式结构的水平线,每个隐藏状态的输出,由细胞中的几个门共同控制。同时,这几个门也作用于细胞状态的更新。
门控机制
- 遗忘门
遗忘门(Forget Gate) 决定了要保留多少上一个细胞状态的信息

通过输入当前时间步的x和上一隐藏状态,对其进行拼接,乘上对应的权重加上偏置,最后使用sigmoid进行激活,得到遗忘门的值
- 输出门
**输入门(Input Gate)**决定要从当前时间步得到多少信息来更新细胞状态

同遗忘门得到输入门的iti_tit,相同的公式,但是权重不同,可以得到不同的值
同时,对输入的xt,ht−1x_t,h_{t-1}xt,ht−1 计算得到细胞候选状态,通过输入门得到的保留程度,以此跟新细胞状态
- 细胞状态更新
Ct=ft∗Ct−1+it∗C~t C_t = f_t * C_{t-1} + i_t * \tilde{C}_t Ct=ft∗Ct−1+i<

最低0.47元/天 解锁文章
6772

被折叠的 条评论
为什么被折叠?



