LSTM中state 与 output关系

最新推荐文章于 2025-09-30 16:12:52 发布

原创

最新推荐文章于 2025-09-30 16:12:52 发布 · 9k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow #深度学习

本文探讨了在LSTM中state和output的关系，通过实验表明，state中的h与output的最后一个时刻的输出相同。文章介绍了LSTM在处理序列数据时，如何使用output作为下一句的输入，并详细解释了state的构成，特别是state的h与output的关系，以及它们在LSTM网络中的作用。

本文通过简单的实验说明lstm中 state与output之间的关系

假设参数如下：

batch_size = 4 # 训练语料中一共有4句话
sequeue_len = 5 # 每句话只有5个词语
ebedding = 6 # 每个词语的词向量维度为 6
hidden_size = 10 # 神经元个数为10

(1)output说明

首先，比方说我们训练语料一共有4句话，每句话有5个词语，每个词语ebedding为6个维度，所以输入数据的

shape=［4，5，6］

然后，经过一个或者多个神经元为10的 cell，（多个cell也是串联的，所以最后结果也就只有一份）得到 output 和 state。

output shape = ［4，5，10］

最后，output[:, -1, :] 我们取每句话中最后一个时刻（词语）的输出作为下一步的输入(相当与用最后一个时刻的输出来表示这句话)，这样，就得到了 4 x 10 的矩阵。

(2)state说明
state 是个tuple(c, h)
state = LSTMStateTuple(c=array([4,10], dtype=float32), h=array([4,10], dtype=float32)）
说明：每句话经过当前cell后会得到一个state，状态的维度就是隐藏神经元的个数，此时与每句话中包含的词语个数无关，这样，state就只跟训练数据中包含多少句话(batch_size) 和隐藏神经元个数(hidden size)有关了。
其中 c =[batch_size, hidden_size], h = [batch_size, hidden_size]

说明：经过多少个cell，就有多少个LSTMStateTuple，即每个cell都会输出一个 tuple(c, h)

最低0.47元/天解锁文章