[Lecture 10 ]Recurrent Neural Network（循环神经网络）_为什么循环神经网络用tanh-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_41341454/article/details/105454740

本文深入介绍了循环神经网络（RNN），包括其基本结构、在语言建模、图像描述、视觉问答等领域的应用。特别讨论了多层RNN和改进的结构，如LSTM和GRU，以及它们如何解决梯度消失问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

课堂提问

问： RNN中某些层的激活函数为什么使用tanh？

1. 引入

普通神经网络和循环神经网络的对比如下,他可以是多输入多输出的：
在这里插入图片描述
序列化

如果我们输入的数据不是像上图所示的是一个序列的，则我们需要将数据序列化。
例如我们要分类一张手写体图像，我们的输入不是整张图像，而是在图像上采样不同的子区域，然后使用RNN来进行分类：
在这里插入图片描述
基本结构

RNN的基本单元如下图右侧所示：
在这里插入图片描述

其每次接收到当前输入的X，然后将其计算后存储在中间隐藏状态(internal hidden state)，并将结果按照某种方式反馈给模型，最后得出输出Y
上述过程被形式的描述成左侧公式（注意我们每一步产生输出都是使用相同的W和 $f_W$ ）

举个例子，一个简单的RNN单元如下图：其接收输入、更新隐藏状态、产生输出：
在这里插入图片描述
将其 计算图 展开我们能得到下图：

可以看到，我们每个时刻的状态不仅与当前输入有关，而且还与之前的输入有关。如果，我们每个时间点都产生一个输出，则有下面的计算图：

同样的，一对多，多对一的过程与上图类似，例如我们在机器翻译中，最常见的做法是：接收不定长的输入，然后编码(encode)到一个隐藏状态，最后再解码（decode）产生多个输出：
在这里插入图片描述
则我们在反向传播时，所有时序步都有梯度反向传播到共享权重W

2. 语言建模

RNN常见的应用就是语言建模，例如输入一串字符或者单词，然后预测下一个字符和单词：
在这里插入图片描述
在训练的时候，我们每次输入一个字符，然后输出其可能的下一字符，并会进行一系列输入和输出。（因为我们输入的是一个字符串来作为训练）

在测试的时候，我们会输入一个字符，然后不断地将其输出当成后续的输入：
在这里插入图片描述
Q：为什么将其输出还要继续输入，而不是直接输出一个得分最高的字母？
A：因为有时候我们的任务是一对多的。（例如，我们后面将的Image Caption）。
Q：为什么不将Softmax的输出直接当下一次的输入，而是转换成字符的特征表示？
A：

1.和训练阶段所使用的数据不一致；
2.我们的词库可能很大，所以我们需要用稀疏的One-hot编码来表示一个字符或者单词，否则Softmax的输出可能会出现很多位置都很接近的情况。

但是，上述形式还会产生其它问题：
例如，我们在前向传播的时候是按照时序进行的，所以反向传播需要按照时序逆行（因为当前隐藏状态受之前隐藏状态的影响）。但是，当我们的输入序列长度很长的时候，反向传播将会比较麻烦。
所以，一般我们采用子序列截断的方法：即前向传播若干步，然后计算一次损失进行反向传播，依此类推。
在这里插入图片描述

这有点类似于我们更新梯度的时候不适用全部样本，而是小批量更新（mini-batch）。
示例代码 min-char-rnn.py
这种预测字符下一个字符的模型还是非常有用的，它能让我们学习到某种格式的文本的内部结构，例如学习C语言的结构，莎士比亚的十四行诗的结构，然后模仿产生类似的文本。