本文通过简单的实验说明lstm中 state与output之间的关系
假设参数如下:
batch_size = 4 # 训练语料中一共有4句话
sequeue_len = 5 # 每句话只有5个词语
ebedding = 6 # 每个词语的词向量维度为 6
hidden_size = 10 # 神经元个数为10
(1)output说明
首先,比方说我们训练语料一共有4句话,每句话有5个词语,每个词语ebedding为6个维度,所以输入数据的
shape=[4,5,6]
然后,经过一个或者多个神经元为10的 cell,(多个cell也是串联的,所以最后结果也就只有一份)得到 output 和 state。
output shape = [4,5,10]
最后,output[:, -1, :] 我们取每句话中最后一个时刻(词语)的输出作为下一步的输入(相当与用最后一个时刻的输出来表示这句话),这样,就得到了 4 x 10 的矩阵。
(2)state说明
state 是个tuple(c, h)
state = LSTMStateTuple(c=array([4,10], dtype=float32), h=array([4,10], dtype=float32))
说明:每句话经过当前cell后会得到一个state,状态的维度就是隐藏神经元的个数,此时与每句话中包含的词语个数无关,这样,state就只跟 训练数据中包含多少句话(batch_size) 和 隐藏神经元个数(hidden size)有关了。
其中 c =[batch_size, hidden_size], h = [batch_size, hidden_size]
说明:经过多少个cell,就有多少个LSTMStateTuple,即每个cell都会输出一个 tuple(c, h)
理解LSTM:state与output的关系解析

本文探讨了在LSTM中state和output的关系,通过实验表明,state中的h与output的最后一个时刻的输出相同。文章介绍了LSTM在处理序列数据时,如何使用output作为下一句的输入,并详细解释了state的构成,特别是state的h与output的关系,以及它们在LSTM网络中的作用。
最低0.47元/天 解锁文章
2000





