理解LSTM网络

最新推荐文章于 2025-12-01 16:14:26 发布

翻译最新推荐文章于 2025-12-01 16:14:26 发布 · 1k 阅读

文章标签：

#神经网络 #RNN #LSTM

深度学习专栏收录该内容

2 篇文章

订阅专栏

本文深入浅出地介绍了循环神经网络(RNN)中的长短时记忆网络(LSTM)的基本原理及其优势。LSTM作为一种特殊的RNN，能够有效解决长期依赖问题，在众多任务中表现出色，如语音识别、语言模型等。

部署运行你感兴趣的模型镜像

说明

这篇同样是一篇译文，通篇很少公式，但对于基本原理讲得很明白，决定翻译并分享它。英语水平有限，有的地方翻译不到位也敬请告知。原文地址如下，Understanding LSTM Networks。

————————————————————————–

循环神经网络

人类并不是在每时每刻都在重新启动他们的思考过程。就像你读一篇散文，你对某个单词的理解是基于前面每一个词的。你不会把之前的都扔掉，然后重新开始思考的。思考具有持续性。
传统的神经网络并不能做这样的工作，这是它的一个主要的缺点。比如说，假设在一部影片中的某一时刻你想辨别什么事件正在发生。传统的神经网络并不清楚怎么利用电影之前事件去推断如今的这个事件是什么。
循环神经网络会处理这个问题。它的内部含有循环结构，以便于使信息持久化。
这里写图片描述

在上图中，神经网络中的块 $A$ 有某个输入 $x_t$ 和一个输出值 $h_t$ 。网络中的循环可以使信息从一个时间步传到下一个时间步。
这些循环让RNN看起来有些神秘。然而，如果多思考一会就会发现，它们并不是完全不同于一般的神经网络。一个循环神经网络可以被认为是同样一个网络的多个复制版本，每一个都会将信息传递给下一个。考虑一下如果我们打开这个循环是什么样子的：
这里写图片描述

链式结构揭露了RNN对于序列和列表是密切相关的。对于这样的序列数据，用这种结构是一种很自然的事情。
在最近几年，RNNs一直被成功运用到各种各样的问题中：语音识别、语言模型，翻译、图像字幕……
这些成功的关键是LSTM系列的应用，一个特别的循环神经网络，对于很多问题，它都比标准RNN工作地好得多。基于RNN的几乎所有的成绩斐然的工作都是LSTMs完成的。这篇文章就是探讨LSTMs。

长时间跨度的依赖问题

RNNs一个吸睛之处就是将当前的任务和以往信息结合起来，就像之前的视频帧会有助于理解当前的视频帧一样。如果RNNs能够做到，那将会很有用。但是它们可以吗？视情况而定。
有时候我们只需要看一下最近的信息就能执行当前的任务。比如说，一个语言模型要根据之前的单词预测下一个单词。在“the clouds are in the sky”这句话里面我们要预测最后一个单词，我们不需要太远的上下文信息，因为非常明显下一个单词是sky。在这种例子中，相关信息和使用相关信息的位置距离不是很远，RNNs能够学习到过去的信息。
这里写图片描述
但是也有需要更多上下文信息的情况。再思考一下这个句子，“I grew up in France… I speak fluent French.”，我们要预测最后一个单词。邻近的信息只能告诉你下一个单词也许是一个语言的名字，但是我们想要确定是哪一种语言，那就需要更远处的“France”的信息。相关信息和当前任务位置的距离很远是非常有可能的。
不幸的是，随着距离的增大，RNNs将不能学习到这些信息。
这里写图片描述

理论上RNNs肯定是能获取到很长时间外的信息。人类可以小心翼翼的为解决这类问题选取参数。但是在实践中，RNNs是没有能力学习到的。
谢天谢地，LSTMs就没有这样的问题！

LSTM网络

长短记忆单元网络（Long Short Term Memory networks）通常只被叫做LSTMs，是一种特殊的RNN，能够学习到长时依赖信息。它们在一大堆问题上工作地非常好，现在也被广泛应用。
LSTMs专门地被设计去避免长时依赖问题。能够记住长时间的信息是固有的属性，而不是努力去学习到的。
所有的RNN都有重复模块的链式结构。在标准的RNNs中，重复模块只有一个简单的结构，比如单一的tanh层。
这里写图片描述
LSTMs同样拥有这样的一个链式结构，但是重复模块本身却是一个不同的结构。不是只有一个神经网络层，它有四个，并以特殊的方式进行交互。

不用担心如何工作的细节。后面将一步步走一下这个图。现在让我们熟悉一下将要用到的标志。
这里写图片描述
上图中，每条线代表了整个向量，从一个节点的输出到另一个节点的输入。品红色圆圈代表了逐点操作，就像向量相加，黄色方块是学习过的神经网络层。融合的箭头代表了连结，分叉箭头代表了它的内容将会被复制并输送到不同的地方。

LSTMs背后的核心思想

LSTMs的关键是单元状态，就是贯穿图上的水平线。
单元状态有点像传送带。在整个链中它一直向下运行，同时只会做一些小的线性操作。信息很容易不被改变地流动。
这里写图片描述

LSTM通过门结构（gates）的确有能力对单元状态进行添加和移除。
门（gates）是一种选择性让信息通过的方式。它们是由sigmoid神经网络层和逐点相乘操作组成的。
这里写图片描述

sigmoid层的输出在0和1之间，描述了有多么想让这个信息通过。0值意味着不让任何信息过去，1值意味着让所有信息都通过。
一个LSTM有三个去保护和控制单元状态的门。

一步步走一下LSTM

在LSTM中第一步要做的就是决定什么样的信息是需要扔掉的。这个是sigmoid层决定的，它被叫做“遗忘门层”。它的输入是 $h_{t-1}$ 和 $x_t$ ，并且输出一个0到1之间的数字作用于单元状态 $C_{t-1}$ 。1代表了信息完全保留，0代表了完全删除这个单元状态信息。
让我们回顾一下上面说的语言模型的例子，它基于以往的单词预测下一个单词。在这样的问题中，单元状态可能是包含性别的主语，所以正确的代词才可以被用。当我们看到一个新的主语时，我们想要忘掉关于性别的旧主语。
这里写图片描述

下一步是去决定什么样的信息要存储在单元状态中。这包含两部分。首先，第一个是叫做“输入门层”的sigmoid层，它决定要更新多少比例的值 $\color\red{这个地方的翻译可能会有所偏差，我的理解是输入门像遗忘门一样，决定信息的通过量}$ ；然后一个tanh层产生了一个候选值的向量 $\hat{C_t}$ ，这会被加到这个单元状态上。在下一步，我们将会融合这两项来产生单元状态的更新值。
在语言模型的例子中，我们想要添加新的包含性别信息的主语到单元状态中，去取代我们已经遗忘的那个旧的单元状态。
这里写图片描述
现在是时候更新旧的单元状态 $C_{t-1}$ 了，新状态叫做 $C_{t}$ 。之前的步骤已经决定了去做什么，现在只需要实际执行。
我们将旧单元状态乘以 $f_t$ ，遗忘我们之前决定遗忘的信息。然后加上 $i_t*\hat{C_t}$ 。这就是新的候选值。
在语言模型的例子中，这就是我们丢弃包含性别的旧主语和添加新主语的地方，就像我们之前步骤决定的那样。
这里写图片描述
最后需要决定的是我们想要输出的内容。输出将会基于我们的单元状态，但是也会做一个过滤操作。首先，我将会运行sigmoid函数（输出门）来决定想要输出的单元状态的比例。然后，我们使单元状态通过tanh函数（使单元状态的值可以在-1到1之间），并且乘以输出门的值，以便于只输出我们决定输出的部分。 $\color\red{上面是原文的翻译，但是我觉得应该先说单元状态的值通过tanh函数，然后再说输出门控制输出比例，以防造成误解。}$
还是语言模型的例子，既然之前是一个主语，它下一步也许就要输出与之相配的动词，这种情况就是接下来要说的。比如说，它会输出主语是单数还是复数，以便我们能知道下面形成的动词是什么形式，是单数还是复数。
这里写图片描述