循环神经网络初识

最新推荐文章于 2025-06-12 18:07:03 发布

Forlogen

最新推荐文章于 2025-06-12 18:07:03 发布

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Deep Learning

本文链接：https://blog.youkuaiyun.com/Forlogen/article/details/89853130

Deep Learning 专栏收录该内容

50 篇文章

订阅专栏

本文介绍了循环神经网络（RNN）。传统前馈神经网络无法持续思考，存在诸多不足，而RNN具有短期记忆能力，能处理任意长度序列。但RNN在时间维度深时会出现梯度问题，LSTM作为其变体可有效解决。此外，还列举了RNN的多种应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何理解RNN？

当我们在面对一个新的问题时，我们总是会从头脑中搜索类似的问题的解决方案，看有什么可以借鉴的地方，而不是蒙头从零开始思考。同样的在阅读一篇文章时，如果想理解某一句话，我们可能需要看前面的几个词和后面的几个词，如果想要理解一段话，还可能需要结合上下文。人类这样的思维过程显示了我们的思考是一个持续的过程，某时刻的想法要依赖于前面所学得的东西。而深度学习中传统的前馈神经网络是做不到持续思考的，它具有如下的不足之处：

节点之间的而连接存在于前一层和后一层之间，同层的节点之间是没有连接的，也就是说同层节点间是无循环的
输入和输出的维数是固定的，不能任意的改变
无法处理边长的序列数据，例如语句、语音信号等
它基于假设每次输入都是独立的，即每一次网络的输出只依赖于当前的输入，与它之前、之后网络的输入都无关

例如下图是一个包含输入层、一个隐藏层和输出层的简单的前馈神经网络

那么如何理解前馈神经网络无法做到持续思考的不足呢？下面我们用一个例子来看一下，如下图所示，我们有两个句子，唯一的不同之处在于Beijing前面的单词是不同的，这就导致了两句话表达的意思就完全是不同的。当我们将两个句子单独的输入到前馈神经网络中，我们希望网络可以做的的是：根据对于句子的理解，将第一个句子中的Beijing标注为destination，将第二个句子中的Beijing标注为place of departure

但是对于传统的前馈神经网络，这样的要求似乎有点强人所难了，因为它没有记忆呀！如果我们希望相同的词在不同的句子中可以被正确的区分所表达的不同的含义，前馈神经网络就无法满足要求了，这时就需要使用循环神经网络。

循环神经网络（Recurrent Neural Network，RNN）是一种具有短期记忆能力的神经网络，神经元不仅可以接受其他神经元的信息，也可以接收自身的信息，形成了一种具有环路的结构。它相比于前面的前馈神经网络具有如下的优势：

通过使用带自反馈的神经元，能够处理任意长度的序列
更加符合生物神经网络的结构

一个简单的的前向循环神经网络如下所示，它在基本的结构上多了一个记忆单元（memory cell），它可以存储当前的输出，将其作为下一个时刻网络的输入。这样的话，当我们分析当前的输入时，就可以结合前面输入的信息进行分析，解决了输入之间的依赖问题。

下面再通过一个简单的小栗子看一下上面所说的是什么意思，假设网络只有简单的三层，而且激活函数都是线性的，记忆单元中存储的值初始化为0，节点的输出自然也都是0，如下所示

那么输入 $[1, 1]$ ，各节点的输出如下所示，输出的结果为 $[4, 4]$

那么再输入 $[1, 1]$ ，此时由于前面的输入，记忆单元中的值更新为2、2，所以隐藏层节点的输出就变成了 $1 + 1 + 2 + 2 = 6$ ，最后输出 $[12, 12]$

将多个简单的循环神经网络组合到一起，按照时间展开，就得到了一个简单的单向循环神经网络

如果将"leave Beijing on November 2"输入到网络中，我们就可得到在Slot Filling问题中每个单词输入每个slot的概率值

在单向的循环神经网络中，常用的有Elman Network、Jordan Network两种，不同之处在于对于记忆单元的更新，如下所示

在处理同一序列数据时，如果从前到后和从后到前同时进行，就得到了双向循环神经网络

理论上，使用上面所提到的循环神经网络就可以建立长距离的依赖关系，但是有一个问题在于，当循环神经网络在时间维度上非常深时，就会出现梯度消失、梯度爆炸的问题。针对于梯度爆炸的问题，我们可以使用权重衰减、梯度截断等方法进行缓解，针对于梯度消失的问题，我们就可以使用LSTM。

长短期记忆（Long Short-Term Memory，LSTM）网络[Gers et al., 2000,Hochreiter and Schmidhuber, 1997] 是循环神经网络的一个变体，可以有效地解决简单循环神经网络的梯度爆炸或消失问题。LSTM中引入了门机制来控制信息传递的路径，引入了输入门（input gate）、输出门（output gate）和遗忘门（forget gate）三个门。