57 长短期记忆网络(LSTM)_by《李沐:动手学深度学习v2》pytorch版

本文链接：https://blog.youkuaiyun.com/buyaotutou/article/details/142614867

系列文章目录

文章目录

系列文章目录
长短期记忆网络（LSTM）

长短期记忆网络（LSTM）

长期以来，隐变量模型存在着长期信息保存和短期输入缺失的问题。
解决这一问题的最早方法之一是长短期存储器（long short-term memory，LSTM）它有许多与门控循环单元（GRU）一样的属性。有趣的是，长短期记忆网络的设计比门控循环单元稍微复杂一些，却比门控循环单元早诞生了近20年。

门控记忆元

可以说，长短期记忆网络的设计灵感来自于计算机的逻辑门。
长短期记忆网络引入了记忆元（memory cell），或简称为单元（cell）。
有些文献认为记忆元是隐状态的一种特殊类型，它们与隐状态具有相同的形状，其设计目的是用于记录附加的信息。
为了控制记忆元，我们需要许多门。
其中一个门用来从单元中输出条目，我们将其称为输出门（output gate）。
另外一个门用来决定何时将数据读入单元，我们将其称为输入门（input gate）。
我们还需要一种机制来重置单元的内容，由遗忘门（forget gate）来管理，这种设计的动机与门控循环单元相同，能够通过专用机制决定什么时候记忆或忽略隐状态中的输入。让我们看看这在实践中是如何运作的。

输入门、忘记门和输出门

就如在门控循环单元中一样，当前时间步的输入和前一个时间步的隐状态作为数据送入长短期记忆网络的门中，如下图所示。它们由三个具有sigmoid激活函数的全连接层处理，以计算输入门、遗忘门和输出门的值。
因此，这三个门的值都在 $(0, 1)$ 的范围内。

在这里插入图片描述 label:lstm_0

我们来细化一下长短期记忆网络的数学表达。
假设有 $h$ 个隐藏单元，批量大小为 $n$ ，输入数为 $d$ 。
因此，输入为 $\mathbf{X}_t \in \mathbb{R}^{n \times d}$ ，前一时间步的隐状态为 $\mathbf{H}_{t-1} \in \mathbb{R}^{n \times h}$ 。
相应地，时间步 $t$ 的门被定义如下：
输入门是 $\mathbf{I}_t \in \mathbb{R}^{n \times h}$ ，
遗忘门是 $\mathbf{F}_t \in \mathbb{R}^{n \times h}$ ，
输出门是 $\mathbf{O}_t \in \mathbb{R}^{n \times h}$ 。
它们的计算方法如下：

$\begin{aligned} \mathbf{I}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xi} + \mathbf{H}_{t-1} \mathbf{W}_{hi} + \mathbf{b}_i),\\ \mathbf{F}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xf} + \mathbf{H}_{t-1} \mathbf{W}_{hf} + \mathbf{b}_f),\\ \mathbf{O}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xo} + \mathbf{H}_{t-1} \mathbf{W}_{ho} + \mathbf{b}_o), \end{aligned}$