LSTM和GRU看完必须全部了然-优快云博客

本文链接：https://blog.youkuaiyun.com/Tian__Gao/article/details/124035443

本文深入介绍了RNN的短时记忆问题，重点解析了LSTM和GRU两种解决方案。LSTM通过遗忘门、输入门、细胞状态和输出门来控制信息流，有效解决长序列信息传递问题。而GRU结合了LSTM的门控机制，简化了结构，提高训练效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LSTM和GRU的感性理解

零、tanh函数与sigmoid函数
- 1.tanh函数
- 2.sigmoid函数
一、RNN简单介绍
二、RNN的缺点——短时记忆
三、LSTM
四、GRU

零、tanh函数与sigmoid函数

1.tanh函数

激活函数 Tanh 用于帮助调节流经网络的值。 tanh 函数将数值始终限制在 -1 和 1 之间。其作用是让数据变化别太大。
在这里插入图片描述

2.sigmoid函数

Sigmoid 激活函数与 tanh 函数类似，不同之处在于 sigmoid 是把值压缩到 0~1 之间而不是 -1~1 之间。这样的设置有助于更新或忘记信息，因为任何数乘以 0 都得 0，这部分信息就会剔除掉。同样的，任何数乘以 1 都得到它本身，这部分信息就会完美地保存下来。这样网络就能了解哪些数据是需要遗忘，哪些数据是需要保存。
在这里插入图片描述

一、RNN简单介绍

RNN 的工作原理如下；第一个词被转换成了机器可读的向量，然后 RNN 逐个处理向量序列。
在这里插入图片描述
处理时，RNN 将先前隐藏状态传递给序列的下一步。而隐藏状态充当了神经网络记忆，它包含相关网络之前所见过的数据的信息。

让我们看看 RNN 的一个细胞，了解一下它如何计算隐藏状态。首先，将输入和先前隐藏状态组合成向量，该向量包含当前输入和先前输入的信息。向量经过激活函数 tanh之后，输出的是新的隐藏状态或网络记忆。
在这里插入图片描述 RNN。它内部的操作很少，但在适当的情形下（如短序列）运作的很好。 RNN 使用的计算资源比它的演化变体 LSTM 和 GRU 要少得多。

二、RNN的缺点——短时记忆

RNN 会受到短时记忆的影响。如果一条序列足够长，那它们将很难将信息从较早的时间步传送到后面的时间步。因此，如果你正在尝试处理一段文本进行预测，RNN 可能从一开始就会遗漏重要信息。

在反向传播期间，RNN 会面临梯度消失的问题。梯度是用于更新神经网络的权重值，消失的梯度问题是当梯度随着时间的推移传播时梯度下降，如果梯度值变得非常小，就不会继续学习。

因此，在递归神经网络中，获得小梯度更新的层会停止学习—— 那些通常是较早的层。由于这些层不学习，RNN 可以忘记它在较长序列中看到的内容，因此具有短时记忆。