长短时记忆网络LSTM_正向长短记忆模型-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45885232/article/details/124497853

长短时记忆网络（LSTM）是递归神经网络（RNN）的一种变体，设计用于解决RNN在处理长序列数据时的长期依赖问题和梯度消失问题。LSTM通过遗忘门、输入门、重置门和输出门来管理单元状态，有效地控制信息流。在计算过程中，遗忘门决定保留哪些信息，输入门控制新信息的添加，输出门则决定了最终输出的内容。这一机制使得LSTM在序列建模任务中表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网络介绍
长短时记忆网络（Long short time memory network, LSTM）是RNN的重要变体，解决了RNN无法长距离依赖的问题，同时缓了RNN的梯度爆炸问题。LSTM由遗忘门、输入门、重置门和输出门四部分组成，当中使用了 $t a n h$ 和 $s i g m o i d$ 作为激活函数。

模型概述
使用记忆单元 ${{\tilde{C}}_{t}}$ 解决长距离依赖和梯度爆炸的问题，使用 $C_t$ 避免梯度消失的问题。在 LSTM中，将文本看成一个文本序列，上一个过程处理的结果经过输入门进行输入，然后通过遗忘门决定哪些信息需要丢弃，遗忘门的取值范围介于0-1之间，随着信息的输入量大小而变化，并将处理后的信息融入到C中，当输入内容很大的时候，激活函数的值为1，则历史信息会原封不动的传递到下一个阶段；输入门中经过激活函数处理后的 $i_t$ 和记忆单元计算后的数据传递到C中，实现对信息的更新，使得向下传递的信息进一步增多；输出门对遗忘门和输入门更新后的信息做一次激活，再将激活后的信息与 $o_t$ 进行矩阵运算，得到当前单元隐藏层的输出。图像结构：

在这里插入图片描述

其中 $h$ (t-1)为上一个单元隐藏层的输出； ${{h}_{t}}$ 为当前单元隐藏层的输出； ${{x}_{t}}$ 为当前输入；σ为 sigmoid函数； ${{f}_{t}}$ 为遗忘门输出； ${{i}_{t}}$ 与 ${{C}_{t}}$ 的乘积为输入门输出； ${{o}_{t}}$ 为输出门输出。

计算过程分析：

遗忘门
首先，遗忘门决定哪些内容需要遗弃，此时使用的激活函数是sigmoid，输出0~1之间的值，0代表不允许通过，1代表允许通过

$f_t=\sigma (W_f \bullet [h_{t-1},x_t]+b_f)$

然后确定哪些信息可以存放在cell单元中。这个过程分为三个步骤。首先，输入门使用sigmoid控制哪些信息可以输入，以确定哪些信息需要更新；然后使用双曲正切tanh函数创建一个候选值向量 ${{\tilde{C}}_{t}}$ ；最后更新原来的cell状态， ${{C}_{t-1}}$ 变为 ${{C}_{t}}$ 。将原始的状态 ${{C}_{t-1}}$ 与 ${{f}_{t}}$ 做相乘，确定舍弃的信息，然后与输入的 ${{i}_{t}}$ 和候选值向量相加，得到新的候选值 ${{C}_{t}}$ 。

输入门

$i_t=\sigma (W_i\bullet [h_{t-1},x_t]+b_i)$
$\tilde{C}_{t}=tanh(W_c[h_{t-1},x_t]+b_c)$
$C_t=f_t C_{t-1}+i_t\tilde{C}_t$

最后使用输出门确定输出哪些值。首先通过sigmoid函数决定输出cell单元的哪些部分，然后将cell状态使用双曲正切的tanh做激活，再将激活后的值与sigmoid门的输出相乘，得到最终的输出 ${{h}_{t}}$ 。

输出门

$O_{t}=\sigma (W_o\bullet [h_{t-1},x_t]+b_o)$
$h_t={{O}_{t}}tanh\left( {{C}_{t}} \right)$

其中 ${{h}_{t-1}}$ 为上一个单元输出； ${{h}_{t}}$ 为当前单元输出； ${{x}_{t}}$ 为当前输入； $\sigma$ 为sigmoid函数； ${{f}_{t}}$ 为遗忘门输出； ${{i}_{t}}$ 与 ${{\tilde{C}}_{t}}$ 的乘积为输入门输出； ${{o}_{t}}$ 为输出门输出。 ${{W}_{f}}$ 和 ${{b}_{f}}$ 分.别为遗忘门的权重矩阵和偏置； ${{W}_{i}}$ 和 ${{b}_{i}}$ 分别为输入门的权重矩阵和偏置； ${{\tilde{C}}_{t}}$ 为候选向量； ${{W}_{c}}$ 和 ${{b}_{c}}$ 分别为输出门的权重矩阵和偏置； ${{W}_{o}}$ 和 ${{b}_{o}}$ 分别是计算单元的权重矩阵和偏置；