LSTNet--结合时间注意力机制的LSTM模型（附源码）

最新推荐文章于 2025-10-24 20:00:00 发布

原创

最新推荐文章于 2025-10-24 20:00:00 发布 · 3.4w 阅读

449 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #lstm #python #大数据 #机器学习

本文介绍了LSTNet模型，它是通过融合注意力机制提升LSTM在时间序列预测能力的一种尝试。LSTNet包含LST-Skip和LST-Atten两种模型，其中LST-Atten能自动捕捉序列周期。文章详细阐述了LST-Atten的工作原理，并提供了模型的PyTorch实现。在公共交通流量数据集上的实验表明，LST-Atten在周期序列预测中表现出良好性能，但对无明显周期性的序列效果有限。

一、引言

LSTM出现以来，在捕获时间序列依赖关系方面表现出了强大的潜力，直到Transformer的大杀四方。但是，就像我在上一篇博客《RNN与LSTM原理浅析》末尾提到的一样，虽然Transformer在目标检测、目标识别、时间序列预测等各领域都有着优于传统模型的表现，甚至是压倒性的优势。但Transformer所依赖的Multi-Head Attention机制给模型带来了巨大的参数量与计算开销，这使得模型难以满足实时性要求高的任务需求。我也提到，LSTM想与Transformer抗衡，似乎应该从注意力机制方面下手。事实上，已经有研究这么做了，那就是LSTNet。

二、LSTNet

2018年，论文《Modeling Long- and Short-Term Temporal Patterns with Deep Neural Networks》正式提出了LSTNet。LSTNet的出现可以认为是研究人员通过注意力机制提升LSTM模型时序预测能力的一次尝试，文中共提出了LST-Skip与LST-Atten两种模型。其中，LST-Skip需要手动设置序列的周期，比较适用于交通流预测等周期明确可知的时间序列，而LST-Atten模型则可以自动捕捉模型的周期。实验表明，上述两种模型在周期序列预测中表现出了良好的性能。

然而，上述模型的性能受制于序列的周期与可用历史状态的长度。首先，模型的注意力机制为“时间注意力机制”，其本质是利用了序列内部的时间性周期，因此对于没有明显周期性的序列（如：车辆轨迹序列）则不能很好地发挥优势。其次，LST-Atten依赖于历史状态挖掘序列的周期，若可用的历史状态较短，无法反映一个完整的周期，则模型可自主挖掘周期性的优势仍无法体现。

三、方法

本文以实现LST-Atten为例（在进入FC层前的张量处理与原文稍有不同），描述LSTM中的时间注意力机制。由于在优快云的编辑器中不方便使用各种专业符号，因此下文中使用的符号一切从简，不以专业性为目的。

我们假设使用过去的A帧数据预测未来的B帧，且LSTM编码器中A个LSTM单元的隐状态为H，LSTM解码器中第一个LSTM单元的隐状态为h1。那么集成了时间注意力机制的LSTM编码-解码器工作原理可用如下表示：

其中，F为打分函数，用于计算H与h1之间的余弦相关度。然后，通过softmax函数，这些余弦相关度被转换为各历史隐状态的相对权重。H中各时刻隐藏状态的加权和与解码器第一帧输出的隐藏状态h1相

最低0.47元/天解锁文章

79 条评论

ZforikC641 2023.09.04
博主，光跑下面的模型训练的代码就可以嘛，小白啥也不懂还没跑过
- 君子不怨回复ZforikC641 2023.09.09
  训练完还要测试的

FunnyMudPee888 2023.07.25
没有用卷积？源码里面好像有卷积呀

qq_50696888 2023.06.08
多特征输入可以预测吗，我看那个网络输入特征好像固定为1了
- 君子不怨回复qq_50696888 2023.06.22
  可以的

Yayiziya 2023.05.26
博主，您好，我有一个问题想请教一下您， h_t, c_t = self.lstmcell(h, (h, c)) ，(h,c)这个就是上一个隐含层的状态，这个我可以理解，但lstmcell里第一个变量为什么是用上一个隐含状态h作为他的输入呀，有点没明白

qq_52160760 2023.05.16
这个w是啥呀有啥作用

qq_45791749 2023.04.25
请问博主能提供一下运行环境的版本吗？
- 君子不怨回复qq_45791749 2023.05.11
  python3.7

只认_番茄薯仔 2023.04.12
请问小规模的数据集（1500条）用您的这个LSTNet预测，可行吗。
- 君子不怨回复只认_番茄薯仔 2023.04.15
  可以的，休息防止过拟合

Sakura_ZW 2023.03.09
[quote]h_t, c_t = self.lstmcell(h, (h, c))[/quote]博主你好，此处关于解码部分的Input，我存在疑问。解码器的h0可以直接使用编码器最后时刻的隐藏状态，但是解码器的输入也是直接使用编码器最后时刻的隐藏状态吗？
- 君子不怨回复Sakura_ZW 2023.03.27
  是的

Chaoseee 2022.11.25
小白想问一下本代码实现了迭代预测吗，好像并不能持续往后预测欸？
- Chaoseee回复君子不怨 2022.11.25
  那应该怎样才能预测未知的2023年数据呢
- 君子不怨回复Chaoseee 2022.11.25
  操作不对，不能用0填充
- Chaoseee回复Chaoseee 2022.11.25
  就是比如我有2000~2022年的数据，想预测2023年的数据，然后我做的操作是把数据填充到2023年，值为0，这样做出预测就会是一条直线，这是不是表明在做预测的时候并没有使用前面的预测值向后迭代预测，而是采用我所填充的真实的0值来做的预测