Keras LSTM层return_sequences参数的坑

随便逛逛2333

于 2021-08-16 19:47:36 发布

阅读量2.2k

点赞数 1

分类专栏： NLP 深度学习文章标签： tensorflow nlp 深度学习

本文链接：https://blog.youkuaiyun.com/weixin_43756600/article/details/119740316

版权

本文记录了在使用Keras LSTM层时，由于return_sequences设置为True导致的问题。这使得网络输出矩阵而非向量，与二分类标签不匹配，但训练过程中未报错。在预测时发现问题，调整为False后输出形状恢复正常。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

具体用法我就不赘述了，可以参考中文文档https://keras.io/zh/layers/recurrent/#lstm

我主要记录一下坑，网络结构如下：

model = Sequential()
model.add(Embedding(257, 150, weights=[embedding_matrix], input_length=X.shape[1], trainable=False))
model.add(SpatialDropout1D(0.55))
# return_sequences: 布尔值。是返回输出序列中的最后一个输出，还是全部序列,默认false。
model.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2, input_shape=(1600, 150), return_sequences=True))
model.add(Dense(32))
# model.add(Dense(2, activation='softmax'))
model.add(Dense(1, activation='sigmoid'))

因为上面网络中LSTM层 return_sequences设置为True，表示返回全部时间序列，而不是仅仅最后一个，导致经过全连接层Dense输出后是一个矩阵而不是一个向量，与标签（二分类，标签为0或1）不匹配，但最坑的一点是竟然不报错，而且还能训练。这是之前的网络结果：