多图+公式全面解析RNN,LSTM,Seq2Seq,Attention注意力机制

最新推荐文章于 2025-03-09 21:09:53 发布

CristianoC20

最新推荐文章于 2025-03-09 21:09:53 发布

阅读量5k

点赞数 8

分类专栏：目标检测文章标签：计算机视觉

本文链接：https://blog.youkuaiyun.com/cristiano20/article/details/105734183

版权

本文将会使用大量的图片和公式推导通俗易懂地讲解RNN,LSTM,Seq2Seq和attention注意力机制，希望帮助初学者更好掌握且入门。

我们知道人类并不是从零开始思考东西，就像你读这篇文章的时候，你对每个字的理解都是建立在前几个字上面。你读完每个字后并不是直接丢弃然后又从零开始读下一个字，因为你的思想是具有持续性的，很多东西你要通过上下文才能理解。

然而传统的神经网络并不能做到持续记忆理解这一点，这是传统神经网络的主要缺点。举个例子，你打算使用传统的神经网络去对电影里每个时间点发生的事情进行分类的时候，传统的神经网络先让不能使用前一个事件去推理下一个事件。

RNN（递归神经网络）可以解决这个问题。他们是带有循环的神经网络，允许信息在其中保留。

在上图中，A代表神经网络主体， $X_t$ 表示网络的输入， $h_t$ 表示网络的输出。循环结构允许信息从当前输出传递到下一次（下个时间点）的网络输入。

这些循环让递归神经网络看起来有点神秘，然而如果你再思考一下，RNN其实和传统的神经网络并没有太多的不同。RNN可以看作是一个网络的多次拷贝，其中每次网络的输出都是下一次的输入。我们可以思考一下我们如果展开这个循环结构会是什么样的：

这种像是链状的网络结构表明RNN和序列以及列表有着天然的联系，他们是处理这些序列数据的天然的神经网络。而且很明显我们可以看出，输入输出的序列是具有相同的时间长度的，其中的每一个权值都是共享的（不要被链式形状误导，本质上只有一个cell）。

在最近的几年，RNN在很多问题上都取得了成功：比如语音识别，语音模型，翻译，图片注释等等，但是RNN存在着梯度消息/爆炸以及对长期信息不敏感的问题，所以LSTM就被提出来了。现在很多问题的成功都必须归功于LSTM，它是递归神经网络的一种，它在许多的任务中表现都比普通的RNN更好，所以接下来我们来探索一下这个神奇的网络。

LSTM

长期依赖问题

人们希望RNN可以将一些之前的信息连接到当前的任务中来，比如使用之前的视频帧来帮助理解当前帧。如果RNN可以做到将会非常有用。那实际RNN能做到吗？这要视情况而定。

有时候，我们只需要当前的信息来完成当前的任务。举个例子，一个语音模型试图基于之前的单词去预测下一个单词。如果我们尝试预测“the clouds are in the sky”，我们不需要太多的上下文信息——很明显最后一个单词会是sky。在像这样不需要太多的相关信息的场合下，RNN可以学习到之前使用的信息。

但是我们要注意，也有很多场景需要使用更多的上下文。当我们试图去预测“I grew up in France… I speak fluent French”这句话的最后一个单词，最近的信息会表明这应该是一种语言的名字，但是如果我们需要知道具体是哪一种语语言，我们需要France这个在句子中比较靠前的上下文信息，相关信息和需要预测的点的间隔很大的情况是经常发生的。

不幸的是，随着间隔变大，RNN变得无法连接到太前的信息。

理论上RNN完全可以处理这种长期依赖（long-term dependencies）的问题。人们可以通过小心地选择参数来解决这个问题。令人悲伤的是，实践表明RNN并不能很好地解决这个问题，Hochreiter (1991) [German] and Bengio, et al. (1994)发现了RNN为什么在这些问题上学习很困难的原因。

而LSTM则没有这个问题。

LSTM网络

长期短期记忆网络-通常叫做LSTM-是一种特殊结构的RNN，它能够学习长期依赖。它在大量的问题有惊人的效果，现在已经被广泛使用。

LSTM被明确设计来避免长期依赖问题，记住长时间的信息对LSTM来说只是常规操作，不像RNN那样费力不讨好。

所有的RNN都有不断重复网络本身的链式形式。在标准的RNN中，这个重复复制的模块只有一个非常简单的结果。例如一个tanh层：

LSTM也有这样的链式结构，但是这个重复的模块和上面RNN重复的模块结构不同：LSTM并不是只是增加一个简单的神经网络层，而是四个，他们以一种特殊的形式进行交互：

读者不需要担心看不懂，接下来我们将会一步步理解这个LSTM图。首先我们先了解一下图中的符号：

在上图中，每条线表示一个向量，从一个输出节点到其他节点的输入节点。粉红色的圆圈表示逐点式操作，就像向量加法。黄色的盒子是学习好的神经网络层。线条合代表联结，线条分叉则表示内容被复制到不同的地方。

LSTM背后的核心思想

LSTM的核心之处就是它的cell state(神经元状态)，在下图中就是那条贯穿整个结果的水平线。这个cell state就像是一个传送带，他只有很小的线性作用，但却贯穿了整个链式结果。信息很容易就在这个传送带上流动但是状态却不会改变。cell state上的状态相当于长期记忆，而下面的 $h_t$ 则代表短期记忆。

LSTM有能力删除或者增加cell state中的信息，这一个机制是由被称为门限的结构精心设计的。

门限是一种让信息选择性通过的方式，它们是由sigmoid神经网络层和逐点相乘器做成的。

sigmoid层输出0和1之间的数字来描述一个神经元有多少信息应该被通过。输出0表示这些信息全部不能通过，而输出1则表示让所有信息都通过。

一个LSTM有三个这样的门限，去保护和控制神经元的状态。

一步步推导LSTM

LSTM的第一步就是决定什么信息应该被神经元遗忘。这是一个被称为“遗忘门层”的sigmod层组成。他输入 $h_{t-1}$ 和 $X_t$ （上一次的输出以及这轮的输入），然后在 $C_{t-1}$ 的每个神经元状态输出0和1之间的数字。同理1表示完全保留这些信息，0表示完全遗忘这个信息。

让我们再次回到一开始举的例子：根据之前的词语去预测下一个单词的语言模型。在这个问题中，cell state或许包括当前主语中的性别信息，所以我们可以使用正确的代词。而当我们看到一个新的主语（输入），我们会去遗忘之前的性别信息。我们使用下图中的公式计算我们的“遗忘系数” $f_t$

下一步就是决定我们要在cell state中保留什么信息。这包括两个部分。首先，一个被称为“输入门层”的sigmoid层会决定我们要更新的数值。然后一个tanh层生成一个新的候选数值 $C_t^～$ ，它会被增加到cell state中。在下一步中，我们将会组合这两步去生成一个新的更新状态值。

在那个语言模型例子中，我们想给cell state增加主语的性别，来替换我们将要遗忘的旧的主语。

现在是时候去更新旧的神经元状态 $C_{t-1}$ 到新的神经元状态 $C_t$ 。之前我们已经决定了要做什么，下一步我们就去做。

我们给旧的状态乘一个遗忘系数 $f_t$ ，来遗忘掉我们之前决定要遗忘的信息，然后我们增加 $i_t * C_t$ 。这是新的候选值，由我们想多大程度更新每个状态的值决定。

在语言模型中，就像上面描述的，这是我们实际上要丢弃之前主语的性别信息，增加新的主语的性别信息的地方。

最后，我们需要决定我们要输出什么。这个输出是建立在我们的cell state的基础上，但是这里会有一个滤波器。首先，我们使用sigmoid层决定哪一部分的神经元状态需要被输出；然后我们让cell state经过tanh(让输出值变成-1到1之间)层并且乘上sigmod门限的输出，这