从头构建LSTM

最新推荐文章于 2024-10-06 16:31:41 发布

danni1023

最新推荐文章于 2024-10-06 16:31:41 发布

阅读量391

点赞数

分类专栏： BaseConcept 文章标签： lstm 深度学习神经网络

本文链接：https://blog.youkuaiyun.com/weixin_47376915/article/details/120081211

版权

BaseConcept 专栏收录该内容

3 篇文章

订阅专栏

本文深入浅出地介绍了LSTM（长短期记忆网络）的工作原理，包括naive RNN的基础，LSTM的前向传播、损失函数和反向传播过程。通过详细的公式解析，阐述了LSTM如何在记忆和遗忘机制下处理序列数据，以及在训练过程中如何优化损失函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从头构建LSTM

1. 概念理解

version:20210903

参考链接：

自己阅读相关材料时整理的笔记，梳理知识点和思路用，仅供参考。(后面用空再补充代码部分的解析)

1. 概念理解

公式说明：

$ϕ (x) = t a n h (x)$
$σ(x)=\frac{1}{1+e^{−x}}$

$t a n h$ 函数取值范围为[-1,1]；
$s i g m o i d$ 函数取值范围为(0,1)。

1.1. naive RNN

$h^{'}, y = f (h, x)$
$h'=\sigma(w^h+w^ix)$

$y=\sigma(w^oh')$

其中：

$x$ 为当前节点状态下的输入， $h$ 表示接收到上一个节点的输入；

$y$ 为当前节点状态下的输出， $h^{'}$ 为传递到下一个节点的输出；

$h^{'}$ 与 $x$ 和 $h$ 的值都相关；

$y$ 则常常使用 $h^{'}$ 投入到一个线性层（主要是进行维度映射）然后使用softmax进行分类得到需要的数据。（往往看具体模型的使用方式）

1.2. LSTM

1.2.1. 前向forward

相比RNN只有一个传递状态 $h^t$ ，LSTM有两个传输状态，一个 $s^t$ （cell state），和一个 $h^t$ （hidden state）。

$s^t, h^t, y^t=f(s^{t-1}, h^{t-1}, x^t)$

$f^t=σ(W_{fx}x^t+W_{fh}h^{t−1}+b_f)$

$i^t=σ(W_{ix}x^t+W_{ih}h^{t−1}+b_i)$

$o^t=σ(W_{ox}x^t+W_{oh}h^{t−1}+b_o)$

$g^t=ϕ(W_{gx}x^t+W_{gh}h^{t−1}+b_g)$

这部分在实际计算中，会将 $x^t$ 和 $h^{t−1}$ 组合起来 $x_c^t=[x^t,h^{t−1}]$ ，然后一起计算，故公式可以简写为如下形式：

$f^t=σ(W_{f}x_c^t+b_f)$

$i^t=σ(W_{i}x_c^t+b_i)$

$o^t=σ(W_{o}x_c^t+b_o)$

$g^t=ϕ(W_{g}x_c^t+b_g)$

$s^t=g^t∗i^t+s^{t−1}∗f^t$

$h^t=o^t*s^t$

$\hat{y}^t=\sigma(w'h^t)$

Tips：

RNN中的 $h^t$ 对于LSTM中的 $s^t$

$s^t$ 改变得很慢，通常输出的 $s^t$ 是上一个状态传过来的 $s^{t-1}$ 加上一些数值；

$h^t$ 则主要依赖当前节点的数据，所以在不同节点往往会有很大的区别。

其中:

$f$ 表示forget，为忘记阶段。这个阶段主要是对上一个节点传进来的输入 $s^{t−1}$ 进行选择性忘记 $f^t$ ；
$i$ 代表input，为选择记忆阶段。这个阶段将这个阶段的输入 $g^t$ （对原始的 $x^t$ 进行了tanh激活）有选择性地进行记忆 $i^t$ ;

（将上面两步得到的结果相加，即可得到传输给下一个状态的 $s^t$ ）

$o$ 代表output，主要控制输出阶段，这个阶段将决定哪些将会被当成当前状态的输出，主要是通过 $o^t$ 来进行控制。（这里未对上一阶段得到的 $s^t$ 进行放缩，有需要还可以通过一个tanh激活函数进行变化： $h^t=o^t*ϕ(s^t)$
输出 $\hat{y}^t$ 与普通RNN类似，往往最终也是通过 $h^t$ 变化得到。这里假设 $\hat{y}^t$ = $h^t$ ，则下面的 $\hat{y}^t$ 直接写为 $h^t$ 。

$f$ ， $i$ ， $o$ 都是门控（gate），使用 $σ$ 激活； $g$ 是作为输入数据的，不是门控状态，所以用 $ϕ$ 激活。

1.2.2. 损失函数lossFunc

定义每个时间步 $t$ 的损失函数为：

$l (t) = f (h (t), y (t))$ (1)

这里选用L2范数损失函数，也叫欧几里得损失函数，来计算loss，公式如下：

$l(t)=f(h(t),y(t))=∥h(t)−y(t)∥^2$

最终目标是通过梯度下降来使整个长度为 $T$ 的序列的损失 $L$ 最小化：

$L=\sum_{t=1}^Tl(t)$

1.2.3. 反向传播backpropagation

下面来推导loss梯度：

$\frac{dL}{dw}$

$\because w$ 是标量参数；且由(1)可知损失只与隐含层 $h (t)$ 和标签 $y (t)$ 有关；由链式法则

$\therefore \frac{dL}{dw}=∑_{t=1}^T∑_{i=1}^M\frac{dL}{dh_i(t)}\frac{dh_i(t)}{dw}$ (2)

其中 $h_i(t)$ 是一个标量，是第 $i$ 个memory cell的隐含层的输出， $M$ 是memory cell的总数。在网络中信息会随着时间向前传播，在时间 $t$ ，改变 $h_i(t)$ 对 $t$ 之前的损失没有什么影响，所以公式可以写成如下：

$\frac{dL}{dh_i(t)}=∑_{s=1}^T\frac{dl(s)}{dh_i(t)}=∑_{s=t}^T\frac{dl(s)}{dh_i(t)}$ (3)

为了方便，我们使用 $L (t)$ 来表示从 $t$ 开始的累计损失：

$L(t)=∑_{s=t}^{T}l(s)$ (4)

所以，当 $t = 1$ 时， $L (1)$ 则表示整个序列的损失。故(3)可以写为：

$\frac{dL}{dh_i(t)}=∑_{s=t}^T\frac{dl(s)}{dh_i(t)}=\frac{dL(t)}{dh_i(t)}$

(2)可以写为：

$\frac{dL}{dw}=∑_{t=1}^T∑_{i=1}^M\frac{dL(t)}{dh_i(t)}\frac{dh_i(t)}{dw}$

$\frac{dh_i(t)}{dw}$ 部分就按照前向传播的公式去推导，下面介绍如何计算 $\frac{dL(t)}{dh_i(t)}$ 部分。

由(4)可得：

$L(t)=\begin{cases} l(t)+L(t+1), & if\quad t<T\\ l(t), & if\quad t=T \end{cases}$

由此，给定时间 $t$ 和一个LSTM节点的 $h (t)$ ，可得：

$\frac{dL(t)}{dh(t)}=\frac{dl(t)}{dh(t)}+\frac{dL(t+1)}{dh(t)}$

其中，前半部分 $\frac{dl(t)}{dh(t)}$ 为 $h (t)$ 在时间 $t$ 的损失 $l (t)$ 的求导；后半部分则体现了LSTM的recurrent性质。我们需要下一节点的derivative来计算当前节点的derivative。最终我们可以从 $\frac{dL(T)}{dh(T)}=\frac{dl(T)}{dh(T)}$ 开始，计算每个时间节点 $t=1,\dots,T$ ，即 $\frac{dL(t)}{dh(t)}$ 。