理解RNN与时间序列-优快云博客

本文深入探讨了循环神经网络（RNN）的工作原理及其在处理时间序列数据方面的优势。从RNN的基本概念出发，文章详细解释了RNN如何通过内部状态记忆处理可变长度的输入序列，并展示了其在构建序列关系上的独特能力。通过比较前馈神经网络（FNN）和RNN的数学描述，阐述了RNN如何通过递归边记录时间序列，为理解复杂的时间动态行为提供了一个强大的框架。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在上一篇文章《什么是seq2seq模型》中简单介绍了一下Seq2Seq。

在上次Seq2Seq的基础之上，我们聊一下RNN。

什么是RNN

在了解RNN的具体原理之前，我们先来看一下WIKI对RNN的介绍。

A recurrent neural network (RNN) is a class of artificial neural networks where connections between nodes form a directed graph along a temporal sequence. This allows it to exhibit temporal dynamic behavior. Derived from feedforward neural networks, RNNs can use their internal state (memory) to process variable length sequences of inputs.

递归神经网络(RNN)是一类人工神经网络，其中节点之间的连接沿着时间序列形成有向图。这允许它表现出时间动态行为。神经网络源自前馈神经网络，可以利用其内部状态来处理可变长度的输入序列。

所以神经网络的主要特点在于:

能够构建时间序列，表现出时间动态行为。
在前馈神经网络的基础上衍生而来
处理可变长度的输入序列

从深度神经网络(DNN)说起

既然,RNN是从DNN衍生而来，那么我们就从DNN说起。

如下图所示，我们给出了一张DNN的网络结构图。

图1 前馈神经网络的基本结构

比如，我们在神经网络中需要处理一个这样的序列：

input：我是一个程序员。

output：I am a loser!

这个时候如果输入输出对是:

[(我， I), (是, am), (一个 a), (程序员, loser)]

这个时候input layer对应的输入分别为:

我, 是, 一个, 程序员

output layer对应的输出为:

I, am, a, loser

在这个时候,第一个输入输出对(我， I)和(是, am)这个输入输出对实际上存在序列关系，但是深度神经网络没有办法捕获这种关系。

这个时候，我们想是不是有一种方法能够根据记录前一个输入的状态，从而构建出有效的序列关系。

比如输入 “I” 该网络可以知道后面是 “am"用第一人称，输入"he” 知道用第三人称"is"。

RNN的基本结构及原理

在DNN模型结构的基础上，我们有了朴素的希望构建序列之间关系的想法之后，第一个反应就是:
我们能否通过一个hidden state在网络中隐性地传递下去，记录序列之间的关系。

基于此，我们得到一个基本的RNN模型中神经元的结构大概也就是下面这个亚子！

RNN单个神经元细胞

在上面的图中，我们的这个权重 $w$ 用于记录模型训练过程中的序列状态。

还是以上面这个例子来说明为题,那么现在输入输出对就成了这个样子。

[((我, $w_0$ )， (I, $w_1$ )),

((是, $w_2$ ), (am, $w_3$ )),

((一个, $w_3$ ), (a, $w_4$ )),

((程序员, $w_4$ ), (loser, $w_5$ ))]

那么这单个神经元在时间维度上展开可以表示为如下方式：

图2 RNN单个细胞按照时间维度展开

看一下这图片，这曲线着身材是不是高端大气上档次。

RNN的数学描述

在上面的基础上，有了模型结构和基本思想之后，我们试图想办法用数学形式来定义和描述上面的模型结构。

毕竟，在程序员眼里没有办法用数学形式描述的东西都是耍流氓。

没有办法转化成0,1二进制的东西都是瞎扯淡，接下来要开始痛苦的历程了。

在《Recurrent Neural Networks cheatsheet》这样写道:

Recurrent neural networks are a strict superset of feedforward neural networks,
augmented by the inclusion of recurrent edges that span adjacent time steps,
introducing a notion of time to the model.

RNN是一个严格的前馈神经网络超集，增加了包含一条循环的边来连接临近的步长，从而在模型中引入时序的概念。

根据上面这段描述,我们可以简单知道的是：