简易理解RNN与LSTM

最新推荐文章于 2025-07-01 21:58:35 发布

原创

最新推荐文章于 2025-07-01 21:58:35 发布 · 5k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#LSTM #RNN #神经网络 #深度学习

本文深入浅出地介绍了RNN和LSTM的工作原理，探讨了RNN的梯度消失问题及解决方案，包括LSTM的各门机制，并提供了PyTorch中LSTM的使用示例。通过对RNN的逐步升级，揭示了LSTM如何通过门控机制增强长期依赖性的建模能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

总说

这篇主要是如何一步步说明RNN和LSTM的形式的构造，方便对模型有一个更直观的理解。写的比较随意。

RNN

我们知道，卷积是一个输入，得到一个输出。但有时候我们想输出一串，然后得到一串输出呢？并且是这一串都是相互有关联的，比如句子翻译。我们就需要一种能针对历史信息进行融合的单元，比如RNN。其实想想，只要以某种形式，将历史信息与当前输入进行有效融合的方式，应该都可以处理类似的问题。

和CNN的区别是，RNN有一个隐层状态 $h_t$ ，这个状态必须将历史的输入 $x_1,x_2,...,x_{t-1}$ 和当前的输入 $x_t$ 进行融合。由于我们RNN是一个迭代的过程，对于第 $t$ 次，输入只有 $x_t$ ，那历史的输入怎么办呢？这就要用到“历史信息”，也就是 $t - 1$ 时刻的隐层状态 $h_{t-1}$ 。这个历史信息只要和历史输入挂钩就行。

比如第一次，我们先设置一个 $h_0$ ，那么 $h_1$ 应该是 $x_1$ 和 $h_0$ 的融合。嗯，没错。这样一来， $h_2$ 应该是 $x_2$ 和 $h_1$ 的融合。此时 $h_2$ 的得到不仅融合了历史输入 $x_1$ 还结合了当前输入 $x_2$ 。

我们通过增加了一个隐层状态，从而使得RNN能够将当前输入与历史输入进行有效的融合。隐层状态是历史信息的载体。

对于每次新的输入 $x_t$ 必须要和已有的隐层状态 $h_{t-1}$ （就是下左图的中间一行的第一个结点的状态）进行融合的。融合方式很简单，我们只需要对 $h_{t-1}$ 和 $x_t$ 分别进行一个变换，好让其输入的维度等于 $h_t$ 的维度就行。所以就有 $W_1$ 和 $W_2$ ，分别表示对当前的输入 $x_t$ 以及历史输入的一个“取舍程度”。

RNN还要有输出，既然是迭代的，显然对于第 $t$ 次迭代，就会有 $\hat{y}_t$ 输出。我们不能直接把 $h_t$ 输出吧，为了增加复杂性，乘以一个权重 $W_3$ 吧，用于表示对当前隐层状态 $h_t$ 的一个“取舍”。
所以自然就有下面:
$h_t=tanh(W^1h_{t-1}+W^2x_t)$
$\bar{y}=W^3h_t$