LSTM与GRU

最新推荐文章于 2025-11-27 10:43:21 发布

转载最新推荐文章于 2025-11-27 10:43:21 发布 · 474 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://zhuanlan.zhihu.com/p/32085405

深度学习专栏收录该内容

13 篇文章

订阅专栏

本文深入探讨了长短期记忆网络(LSTM)和门控循环单元(GRU)的工作原理及内部结构。详细介绍了两种网络如何通过不同的门控机制处理序列数据，并提供了实战应用案例。

$⨀\bigodot$ 表示操作矩阵中对应的元素相乘，因此要求两个相乘矩阵是同型的。 $⨁\bigoplus$ 则代表进行矩阵加法操作。
在这里插入图片描述

LSTM内部结构-输入门+遗忘门+输出门

RNN和LSTM结构图对比：
在这里插入图片描述
RNN 和 LSTM的区别：

LSTM比RNN多了一个输入状态，包括两个输入 $c^t$ (cell state)和 $h^t$ （hidden state）。
首先使用LSTM的当前输入 $x^t$ 和上一个状态传递下来的 $h^{t-1}$ 拼接训练得到四个状态。
$\begin{cases} z &=tanh(W^{x^t}_{h^{t-1}}) \\ z^i &= \sigma({W^i}^{x^t}_{h^{t-1}}) \\ z^f &= \sigma({W^f}^{x^t}_{h^{t-1}}) \\ z^o &= \sigma({W^o}^{x^t}_{h^{t-1}}) \\ \end{cases}$
其中，记忆 $z^i$ , 忘记 $z^f$ , 输出 $z^o$ 是由拼接向量乘以权重矩阵之后，再通过一个sigmoid激活函数转换成0到1之间的数值，来作为一种门控状态。而z则是将结果通过一个tanh激活函数将转换成-1到1之间的值（这里使用tanh是因为这里是将其做为输入数据，而不是门控信号）。

3个阶段

两条数据流
第一步通过遗忘和输入门计算当前的 $c^t$
第二步通过输出门计算当前的 $h^t$
在这里插入图片描述

1、忘记

具体来说是通过计算得到的 $z^f$ 来作为忘记门控，来控制上一个状态的 $c^{t-1}$ 哪些需要留哪些需要忘。

2、记忆

主要是会对输入 $x^t$ 进行选择记忆。哪些重要则着重记录下来，哪些不重要，则少记一些。当前的输入内容由前面计算得到的 $z$ 表示。而选择的门控信号则是由 $z^i$ 来进行控制。

1 + 2

将上面两步得到的结果相加，即可得到传输给下一个状态的 $c^t$ 。

3、输出

这个阶段将决定哪些将会被当成当前状态的输出。主要是通过 $z^o$ 来进行控制的。并且还对上一阶段得到的 $c^o$ 进行了放缩（通过一个 $t a n h$ 激活函数进行变化）。
与普通RNN类似，输出 $y^t$ 往往最终也是通过 $h^t$ 变化得到。

LSTM实战-预测

参考之前的一篇：https://blog.youkuaiyun.com/ACBattle/article/details/85307422

GRU内部结构-更新门+重置门

主要包括三次数据的处理（三条明确的轨迹路线）红 + 黑 + 紫
在这里插入图片描述
总的公式为：
$\begin{cases} r &= \sigma({W^{r}}^{x^t}_{h^{t-1}}) \\ {h^{t-1}}^{'} &= h^{t-1} \bigodot r \\ h^{'} &= tanh({W}^{x^t}_{{h^{t-1}}^{'}}) \\ \end{cases}$

$\left\{ \begin{array}{c} z &= \sigma({W^{z}}^{x^t}_{h^{t-1}}) \\ \end{array} \right.$

$\left\{ \begin{array}{c} h^t = z \bigodot h^{t-1} + (1 - z)\bigodot {h^{'}} \end{array} \right.$

通过上一个传输下来的状态 $h^{t-1}$ 和当前节点的输入 $x^{t}$ 来获取两个门控状态。

1、重置：计算 $h$

reset： $\sigma({W^{r}}^{x^t}_{h^{t-1}})$
首先通过重置门得到
$ht−1′=ht−1⨀r{h^{t-1}}^{'} = h^{t-1} \bigodot r$
再将 ${h^{t-1}}^{'}$ 与输入的 $x^t$ 进行拼接，在通过一个tanh来将数据缩到{-1, 1}之内。即可得到的 $h^{'}$ 。
$h′=tanh(Wht−1′xt)h^{'}= tanh({W}^{x^t}_{{h^{t-1}}^{'}})$
这里的 $h^{'}$ 主要是包含了当前输入的 $x^t$ 数据。有针对性的对 $h^{'}$ 添加到当前的隐藏状态，相当于“记忆了当前时刻的状态”。类似于LSTM的选择记忆阶段。

2、更新：计算 $z$

update： $\sigma({W^{z}}^{x^t}_{h^{t-1}})$
同时进行遗忘和更新。
我们使用了先前得到的更新门控 z（update gate）。
更新门： $ht=z⨀ht−1+(1−z)⨀h′h^t = z \bigodot h^{t-1} + (1 - z)\bigodot h^{'}$
门控信号的范围是 $01$ ，门控信号越接近1，代表“记忆”下来的数据越多；而越接近0则代表“遗忘”的越多。
疑惑：遗忘与记忆的关系和为1？