23、长短期记忆网络（LSTM）与文本自动补全技术解析

最新推荐文章于 2025-08-28 19:08:26 发布

open4

最新推荐文章于 2025-08-28 19:08:26 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习实战指南文章标签： LSTM 文本自动补全自回归模型

本文链接：https://blog.youkuaiyun.com/open4/article/details/151060201

深度学习实战指南专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

长短期记忆网络（LSTM）与文本自动补全技术解析

1. LSTM 层的行为总结

LSTM（长短期记忆网络）层的每个单元都有一个内部状态，在每个时间步，该内部状态都会更新。新值是上一个时间步的内部状态和当前时间步的输入激活函数的加权和，这些权重由动态控制的门来决定。输入激活函数的输入来自上一层的输出（x）和当前层上一个时间步的输出（h）的拼接，这与常规的循环神经网络（RNN）类似。最后，LSTM 层的输出是通过将内部状态输入到输出激活函数，再乘以另一个门得到的。所有的门都由 x 和 h 的拼接来控制。

1.1 LSTM 的另一种视角

在深度学习领域，术语使用并不统一。有时我们将单个 LSTM 单元称为细胞，多个细胞连接成一层；但也有时会将整个层称为一个细胞。在很多关于不同类型单元的图示和描述中，通常是从整个层的角度进行的，这样便于绘制按时间展开的网络，但也可能会隐藏一些实际连接，导致混淆。

1.2 LSTM 的常见表示方法

一种常见的绘制 LSTM 的方法在一篇流行博客中被介绍。图展示了一个按时间展开三个时间步的 LSTM 层，每个时间步该层接收上一个时间步的 c 和 h 以及当前时间步的 x，并输出新的 c 和 h 值。

图的中间部分展示了 LSTM 层的内部结构。每个矩形代表多个神经元（数量与层中的 LSTM 单元数量相同），每个神经元接收一个输入向量并产生一个输出。标记为希腊字母 sigma（σ）的代表门，标记为 tanh 的代表输入和输出激活函数。从 x(t) 出发的曲线表示拼接操作，即形成一个更宽的向量，包含 h(t - 1) 和 x(t) 的元素。其他操作（用圆形/椭圆形表示）代表多个实例（数量与层中的