LSTM与BiLSTM-传统rnn升级模型

最新推荐文章于 2025-04-16 11:40:48 发布

Ai玩家hly

最新推荐文章于 2025-04-16 11:40:48 发布

阅读量979

点赞数 22

CC 4.0 BY-SA版权

文章标签： rnn lstm 深度学习双向rnn python nlp

本文链接：https://blog.youkuaiyun.com/qq_45003504/article/details/139782113

LSTM（Long Short-Term Memory）是一种特殊的RNN（Recurrent Neural Network）结构，它能够有效地学习长期依赖关系。LSTM的内部原理包括三个门控机制：遗忘门、输入门和输出门，以及一个细胞状态（cell state）来存储信息。

遗忘门

遗忘门负责决定前一时间步的细胞状态中有多少信息应该被遗忘。这个过程通过一个Sigmoid层来完成，它将输入数据与前一时间步的隐藏状态（h_t-1）作为输入，并输出一个介于0和1之间的值。这个值代表了前一时间步的细胞状态中有多少信息应该被遗忘。

输入门

输入门负责决定前一时间步的细胞状态中应该添加哪些新信息。这个过程也通过一个Sigmoid层和一个tanh层来完成。Sigmoid层将输入数据与前一时间步的隐藏状态作为输入，并输出一个介于0和1之间的值，这个值代表了应该将多少新信息添加到细胞状态中。tanh层则将输入数据与前一时间步的隐藏状态作为输入，并输出一个介于-1和1之间的值，这个值代表了新信息的候选值。

细胞状态

细胞状态是LSTM的核心，它负责存储信息。在每个时间步，遗忘门和输入门决定了哪些信息应该被遗忘和添加到细胞状态中。遗忘门和输入门的输出分别与细胞状态和tanh层的输出相乘，然后将两个结果相加，得到新的细胞状态。

输出门

输出门负责决定当前时间步的隐藏状态中有多少信息应该被输出。这个过程通过一个Sigmoid层来完成，它将输入数据与当前时间步的隐藏状态（h_t）作为输入，并输出一个介于0和1之间的值。这个值代表了当前时间步的隐藏状态中有多少信息应该被输出。

隐藏状态

隐藏状态是LSTM的输出，它包含了当前时间步的信息。输出门的输出与tanh层的输出相乘，然后将两个结果相加，得到当前时间步的隐藏状态。

推理过程

在推理过程中，LSTM不需要反向传播，只需要按照时间步顺序逐个处理序列中的每个元素。在每个时间步，LSTM会根据当前的输入数据和前一时间步的隐藏状态，通过遗忘门、输入门和输出门来更新细胞状态和隐藏状态。
总结一下，LSTM通过遗忘门、输入门和输出门这三个门控机制，以及