【学习笔记】Understanding LSTM Networks

原创

已于 2023-11-12 20:40:06 修改 · 870 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记 #lstm #gru #nlp #rnn

于 2023-11-12 20:39:27 首次发布

本文介绍了LSTM网络如何解决传统RNN的长程依赖问题，通过遗忘门、输入门和输出门控制信息流动。LSTM的核心是细胞状态，以及其变体如GRU和Transformer的发展。

Understanding LSTM Networks

前言
Recurrent Neural Networks
The Problem of Long-Term Dependencies
- LSTM Networks
The Core Idea Behind LSTMs
Step-by-Step LSTM Walk Through
Variants on Long Short Term Memory
Conclusion

前言

最近在整理LSTM相关的工作，看到了一篇非常经典的博客，遂沿着该博客的思路过了一遍LSTM，收获颇丰，故写下此篇笔记以帮助NLP初学者理解LSTM这个经典的模型，当然要想深入学习，还是看英文原版博客更合适。

Paper	https://colah.github.io/posts/2015-08-Understanding-LSTMs
Code	https://github.com/nicodjimenez/lstm
From	colah’s blog

Recurrent Neural Networks

人类总是依赖上下文进行思考的，因为你的思想存在延续性，但是传统的神经网络做不到这一点，它无法将先验知识添加进来帮助模型理解当前的场景。因此RNN应运而生，RNN作为特殊的神经网络，保留了之前学习到的内容，引入了隐状态的概念，它可以对序列信息抽取特征，作为先验信息传递下去。

上图就是一块RNN模块，输入 $X_t$ 到模块中，输出 $h_t$ ，同时模块中的loop允许信息从该模块传递下去。从这个角度来看，RNN又更像神经网络了。

具体来说，RNN模块以链式结构连接在一起，如上图所示，这种链式的结构将上游的信息传递下去，从而使得模型能够将先验知识利用起来。RNN在语音识别、语言建模、翻译和图像识别等领域都取得了巨大的成功，不过其中最大的功臣还是LSTM，下面将讲述普通的RNN所遇到的瓶颈。

The Problem of Long-Term Dependencies

理论上，RNN利用上之前的信息可以解决当前的问题，但是这取决于序列的长短。当序列很短时，比如一句话“the clouds are in the”，模型很容易知道下一个要输出的单词是“sky”。

可是当序列很长时，比如一段文本“I grew up in France… I speak fluent _”，中间省略的部分包含大量的文本内容，对于人来说，由于一开始提及了France，如果多加注意，那么这里大概率会填写“French”，但是对于普通的RNN模型来说，很难将这二者关联起来。这就是长程依赖问题。
总结一下， RNN具有如下的局限性：