RNN的简单理解

最新推荐文章于 2025-11-02 20:05:28 发布

原创最新推荐文章于 2025-11-02 20:05:28 发布 · 4.9k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#斯坦福大学 #RNN #LSTM #ImageCaption

本文的内容主要来自于斯坦福大学FeiFei-Li的CS231n课程，Lecture10，在这里做一个简单的总结，有兴趣的同学可以去看一下这个课程，讲的很好。

1. RNN

RNN的用途：

RNN主要用于序列处理，比如机器翻译，这种输入输出序列之间具有高度的相关性，RNN可以model这种关系，总结一下，按照输入输出的类型，RNN可以做以下几个事情：

举几个例子：
one-to-one: CNN
one-to-many: Image Caption
many-to-one: MNIST（glimpse输入）字符分类
many-to-many: 机器翻译

RNN的基本单元：

后一个状态由前一个状态以及当前输入决定，fw可以取为tanh等函数。
其中，参数W共用，不随时间改变而改变：

RNN的优化：

首先，传统的BP需要这样更新：

但是这样存在的问题是，如果输入序列太长，那么参数无法很好的进行更新，梯度在这个过程中很容易消失，因此，很多情况下RNN采用这种分段的BP算法：

Image Caption：

Image Caption是一个很好的将CV与NLP结合在一起的应用场景，输入一幅图片，输出一段话对当前图片进行描述，目前的state of the art的效果都是基于RNN实现的，一种经典的RNN用于Image Caption的做法是：

前面先用一个pre-trained的CNN结构（ResNet,VGG）对输入图像提取特征，用后面的FC层（如果有的话）特征作为RNN的输入，准确来说，是使用这些特征来对RNN进行状态初始化，接下来的输入输出序列都是自然语言，用当前单词预测下一个单词应该输出什么，直到输出一个终止符（句号）为止。

2. LSTM

LSTM早在1997年就首次提出，然而直到现在才被广泛的采用。我们首先来看一下传统的RNN存在什么问题：

对于经典的RNN单元，只有一个状态ht存在，每计算一次ht到h(t-1)的梯度，都需要乘上整个参数矩阵W，而且有非线性函数tanh的存在，这样的话，当序列很长的时候，整个梯度的计算量巨大，而且由于W矩阵的连乘，使得梯度很有可能爆炸以及消失，最终的表现就是训练困难。

LSTM很好的解决了这个问题：

可见相比于传统的RNN结构，LSTM增加了i,f,o,g几个门结构，这使得整个LSTM存在两个隐含状态ht和ct；

LSTM增加的门结构，可以很好的控制隐含层状态随着时间变化的信息流动，这在机器翻译问题中的一个直接体现就是，当前单词与前面的单词存在联系，但是可能只有前面的若干个单词直接影响了这个单词，而不是前面所有单词，这样的话LSTM可以选择性的控制前面单词对当前单词的影响程度。
更为重要的一点是，LSTM结构更易于优化，因为它解决了上面提到的RNN存在的梯度流复杂的问题：