长短期记忆网络(LSTM)与文本自动补全技术解析
1. LSTM 层的行为总结
LSTM(长短期记忆网络)层的每个单元都有一个内部状态,在每个时间步,该内部状态都会更新。新值是上一个时间步的内部状态和当前时间步的输入激活函数的加权和,这些权重由动态控制的门来决定。输入激活函数的输入来自上一层的输出(x)和当前层上一个时间步的输出(h)的拼接,这与常规的循环神经网络(RNN)类似。最后,LSTM 层的输出是通过将内部状态输入到输出激活函数,再乘以另一个门得到的。所有的门都由 x 和 h 的拼接来控制。
1.1 LSTM 的另一种视角
在深度学习领域,术语使用并不统一。有时我们将单个 LSTM 单元称为细胞,多个细胞连接成一层;但也有时会将整个层称为一个细胞。在很多关于不同类型单元的图示和描述中,通常是从整个层的角度进行的,这样便于绘制按时间展开的网络,但也可能会隐藏一些实际连接,导致混淆。
1.2 LSTM 的常见表示方法
一种常见的绘制 LSTM 的方法在一篇流行博客中被介绍。图展示了一个按时间展开三个时间步的 LSTM 层,每个时间步该层接收上一个时间步的 c 和 h 以及当前时间步的 x,并输出新的 c 和 h 值。
图的中间部分展示了 LSTM 层的内部结构。每个矩形代表多个神经元(数量与层中的 LSTM 单元数量相同),每个神经元接收一个输入向量并产生一个输出。标记为希腊字母 sigma(σ)的代表门,标记为 tanh 的代表输入和输出激活函数。从 x(t) 出发的曲线表示拼接操作,即形成一个更宽的向量,包含 h(t - 1) 和 x(t) 的元素。其他操作(用圆形/椭圆形表示)代表多个实例(数量与层中的
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



