LSTM 详细公式与图解

最新推荐文章于 2025-10-15 11:58:47 发布

原创最新推荐文章于 2025-10-15 11:58:47 发布 · 7.4k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #lstm #循环神经网络 #神经网络

深度学习专栏收录该内容

3 篇文章

订阅专栏

Gated Recurrent Unit

GRU 和 LSTM 都可以很好的解决 RNN 中的梯度消失问题，而 GRU 与 LSTM 在某些方面很相似，为了阐述 LSTM，先阐述 GRU。

下图所示是普通 RNN 单元

GRU 的 RNN 单元与其类似，但有所不同，其中对于 a 的计算分为三部：

计算 $a~⟨t⟩=tanh(wa[a⟨t−1⟩,x⟨t⟩]+ba)\tilde{a}^{\langle t \rangle} = tanh(w_a[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_a)$
计算 $Γu=σ(wu[a⟨t−1⟩,x⟨t⟩]+bu)\Gamma_u = \sigma(w_u[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_u)$
最终 $a⟨t⟩=Γu⋅a~⟨t⟩+(1−Γu)⋅a⟨t−1⟩a^{\langle t \rangle} = \Gamma_u \cdot \tilde{a}^{\langle t \rangle} + (1-\Gamma_u) \cdot a^{\langle {t-1} \rangle}$

其中 $Γu\Gamma_u$ 为 update gate，即更新门，其值域为 $[0, 1]$ . 从上式可以看出，最终的 $a⟨t⟩a^{\langle t \rangle}$ 是当前激活值与一个时间步骤前的激活值的线性组合，通过这种方式，可以使得先前激活值有一定概率传播到当前激活值，即记住了句子之前的信息。然后用最终的 $a⟨t⟩a^{\langle t \rangle}$ 计算 $y⟨t⟩y^{\langle t \rangle}$ .

另外为了与普通 RNN 单元进行区分，GRU 中的激活值一般以 c 表示，将上式中的 a 替换为 c 即可，下面将使用 c 阐述其他内容。

目前为止介绍的 GRU 其实做了简化，完整的 GRU 还有一个相关门，即 relevant gate，用来确定 $c⟨t−1⟩c^{\langle {t-1} \rangle}$ 与 $c⟨t⟩c^{\langle t \rangle}$ 的相关程度，加入了更新门后对于 c 的计算过程如下。

计算 $Γr=σ(wr[c⟨t−1⟩,x⟨t⟩]+br)\Gamma_r = \sigma(w_r[c^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_r)$
计算 $c~⟨t⟩=tanh(wc[Γr⋅c⟨t−1⟩,x⟨t⟩]+bc)\tilde{c}^{\langle{t}\rangle} = tanh(w_c[\Gamma_r \cdot c^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_c)$
计算 $Γu=σ(wu[c⟨t−1⟩,x⟨t⟩]+bu)\Gamma_u = \sigma(w_u[c^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_u)$
最终 $c⟨t⟩=Γu⋅c~⟨t⟩+(1−Γu)⋅c⟨t−1⟩c^{\langle t \rangle} = \Gamma_u \cdot \tilde{c}^{\langle t \rangle} + (1-\Gamma_u) \cdot c^{\langle {t-1} \rangle}$

其中第一步计算 relevant gate，第二步利用 relevatn gate 计算 $c~⟨t⟩\tilde{c}^{\langle t \rangle}$ ，其余步骤与之前相同。

关于为什么要使用这样的 RNN 单元，Andrew NG 对此有下面这一番话：

So why we use these architectures, why don’t we change them, how we know they will work, why not add another gate, why not use the simpler GRU instead of the full GRU; well researchers has experimented over years all the various types of these architectures with many many different versions and also addressing the vanishing gradient problem. They have found that full GRUs are one of the best RNN architectures to be used for many different problems. You can make your design but put in mind that GRUs and LSTMs are standards.

Long Short Term Memory

GRU 在解决梯度消失问题上的表现很不错，但在 GRU 提出之前，LSTM 存在已久，而 LSTM 比起 GRU 使用得更加普遍。

LSTM 与 GRU 十分相似。在 GRU 中，我们有 update gate 和 relevant gate，以及激活单元 c，而在 LSTM 中，没有_relevant gate_，但新增了 forget gate 和 output gate，以及激活单元 c 和 a，下面我们来详细阐述。

在 GRU 中，我们使用 update gate 的来控制激活单元是否更新以及更新的程度，其目的是减少激活单元更新的次数或程度，好让之前的激活单元的值得到保留，换言之，记住句子前面部分的信息，这一点在 LSTM 中并没改变，只不过相比于 GRU 使用 $\Gamma_u$ 来表示不更新的概率，LSTM 直接使用一个 forget gate 即 $Γf\Gamma_f$ 来代替 $\Gamma_u$ ，下表可以清楚看出 GRU 与 LSTM 在计算 $c⟨t⟩c^{\langle t \rangle}$ 时的区别。

GRU	LSTM
$c⟨t⟩=Γu⋅c~⟨t⟩+(1−Γu)⋅c⟨t−1⟩c^{\langle t \rangle} = \Gamma_u \cdot \tilde{c}^{\langle t \rangle} + (1-\Gamma_u) \cdot c^{\langle{t-1}\rangle}$	$c⟨t⟩=Γu⋅c~⟨t⟩+Γf⋅c⟨t−1⟩c^{\langle t \rangle} = \Gamma_u \cdot \tilde{c}^{\langle t \rangle} + \Gamma_f \cdot c^{\langle{t-1}\rangle}$

另一个门，即 output gate 的作用是进一步控制激活单元更新的程度，在 GRU 中，上表算出的 $c⟨t⟩c^{\langle t \rangle}$ 就是激活单元，而在 LSTM 中还需进一步计算，再用一张表表示。

GRU 的激活单元	LSTM 的激活单元
$c⟨t⟩=Γu⋅c~⟨t⟩+(1−Γu)⋅c⟨t−1⟩c^{\langle t \rangle} = \Gamma_u \cdot \tilde{c}^{\langle t \rangle} + (1-\Gamma_u) \cdot c^{\langle{t-1}\rangle}$	$c⟨t⟩=Γu⋅c~⟨t⟩+Γf⋅c⟨t−1⟩c^{\langle t \rangle} = \Gamma_u \cdot \tilde{c}^{\langle t \rangle} + \Gamma_f \cdot c^{\langle{t-1}\rangle}$ $a⟨t⟩=Γo⋅tanh(c⟨t⟩)a^{\langle t \rangle} = \Gamma_o \cdot tanh(c^{\langle t \rangle})$

从表中可以看出，LSTM 的最终激活单元是 a，即 $y⟨t⟩y^{\langle t \rangle}$ 是通过 $a⟨t⟩a^{\langle t \rangle}$ 的计算得出的， $c⟨t⟩c^{\langle t \rangle}$ 只是中间变量，不过 $c⟨t⟩c^{\langle t \rangle}$ 和 $a⟨t⟩a^{\langle t \rangle}$ 都会传向下一个单元，一会会用一张图表示这个过程。

介绍了 forget gate 和 output gate 的作用后，让我们把 LSTM 的激活单元计算过程中涉及的计算式完整写一遍：

$c~⟨t⟩=tanh(wc[a⟨t−1⟩,x⟨t⟩]+bc)\tilde{c}^{\langle t \rangle} = tanh(w_c[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_c)$
$Γu=σ(wu[a⟨t−1⟩,x⟨t⟩]+bu)\Gamma_u = \sigma(w_u[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_u)$
$Γf=σ(wf[a⟨t−1⟩,x⟨t⟩]+bf)\Gamma_f = \sigma(w_f[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_f)$
$Γo=σ(wo[a⟨t−1⟩,x⟨t⟩]+bo)\Gamma_o = \sigma(w_o[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_o)$
$c⟨t⟩=Γu⋅c~⟨t⟩+Γf⋅c⟨t−1⟩c^{\langle t \rangle} = \Gamma_u \cdot \tilde{c}^{\langle t \rangle} + \Gamma_f \cdot c^{\langle{t-1}\rangle}$
$a⟨t⟩=Γo⋅tanh(c⟨t⟩)a^{\langle t \rangle} = \Gamma_o \cdot tanh(c^{\langle t \rangle})$

计算顺序不一定按照上面的序号来。可以用一张图来表示 LSTM 的 RNN 单元的计算过程：

从图中可以看出， $c⟨t⟩c^{\langle t \rangle}$ 和 $a⟨t⟩a^{\langle t \rangle}$ 都传向了下一个单元（这里说下一个单元有些不太准确，准确形容应该是 the next time step），但只有 $a⟨t⟩a^{\langle t \rangle}$ 参与了 $y⟨t⟩y^{\langle t \rangle}$ 的计算。