【长短期记忆网络(LSTM)】提出以来,凭借其独特的门控机制在序列建模任务中展现出卓越性能,在自然语言处理、语音识别、机器翻译等时序依赖型任务中建立了广泛应用。然而,由于在并行计算效率与长程依赖建模方面的局限性日渐凸显,LSTM 逐渐落后于兴起的Transformer 架构。
近期,xLSTM 架构的提出,重新激活了对这一经典模型的研究。xLSTM 不仅保留了传统 LSTM 的时序建模优势,且困惑度指标较 Transformer 和 Mamba 降低了12-18%,通过以下创新显著提升性能:1)可扩展的记忆单元设计;2)引入门控残差连接,增强深层网络梯度流动;3)支持全时域并行计算。 2025年以来,多项研究为 LSTM 开辟了更多新方向,如注意力机制嫁接、GNN+ LSTM、增强 xLSTM,为时序任务带来了前所未有的可能性。
如果大家感兴趣,不妨看看最新的前沿成果找找灵感,本文已经帮同学们整理好了11篇相关前沿论文,附带开源代码。
一、Differential Machine Learning for Time Series Prediction
1. 方法
文章提出了一种新的方法,将差分运算(用于消除时间序列的非平稳性)与传统的LSTM(擅长捕捉长期依赖关系)结合,提出一种端到端的联合建模框架 Diff-LSTM,改善了时间序列的预测,即使在未知的动态过程下也能有效进行预测。
作者在 LSTM 的输入门或遗忘门中嵌入差异估计模块,通过滑动窗口计算局部差分信息,并将其作为额外特征输入模型。Diff-LSTM 模型通过差异估计分别建模不同变量的局部变化,通过 LSTM 融合全局依赖关系。
2. 创新点
1)本文将差分运算与LSTM 深度融合,直接在模型中处理非平稳特征,无需人工对原始数据进行预处理,减少了信息损失和误差传递风险。
2)引入差异估计模块,通过动态学习时间序列中的局部变化模式,优化预测的稳定性和精度,增强模型对突变点的适应能力,克服了传统LSTM在高噪声、非平稳数据中因依赖单一历史信息而导致的预测偏差问题。在真实数据集上的实验验证了模型对非平稳序列的预测性能优于传统 LSTM 和 ARIMA 等基线方法。
二、MAL: Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance
1.方法
本文通过集群掩蔽策略和多任务预训练框架,显著提升了xLSTM在视觉任务中的性能。
xLSTM架构改进
-
指数门控:通过可学习的指数函数动态调整遗忘门和输入门的权重,增强对重要特征的记忆能力。
-
并行内存矩阵:将LSTM的隐状态扩展为矩阵形式,支持同时处理多个图像区域。
集群掩蔽的实现
使用轻量级聚类算法将图像划分为若干语义连贯的局部区域(集群),随机选择部分集群进行整体掩蔽,要求模型根据周围集群重建被掩蔽区域。
多任务预训练设计
-
任务权重分配:通过交叉熵损失监督像素预测,采用均方误差(MSE)和Dice损失,通过动态加权平衡多任务梯度。
-
训练策略:分阶段训练,先预训练编码器-解码器框架,再通过少量数据微调特定任务。
2. 创新点
1)本文提出了创新的集群掩蔽策略。传统视觉任务中的掩蔽方法(如随机块掩蔽)可能破坏图像局部连续性,而 MAL 的“集群掩蔽”通过动态划分图像为语义连贯的局部区域(集群),掩蔽整个集群而非随机块。这种方法保留了局部特征的完整性,提升了模型对图像上下文的理解能力。
1)改进了xLSTM的视觉适应性。本文利用xLSTM的指数激活函数增强门控机制,提升对长距离依赖的建模能力;通过矩阵操作替代传统LSTM的序列递归,支持并行处理图像块,解决了传统LSTM在视觉任务中的扩展性瓶颈。
三、Stock Price Prediction Using a Hybrid LSTM-GNN Model: Integrating Time-Series and Graph-Based Analysis
1. 方法
本文首次将 LSTM 与 GNN 结合,突破了传统方法单独依赖时间序列或静态关系分析的局限,实现了对时间动态与复杂关联关系的双重捕捉。
混合模型通过门控机制(遗忘门、输入门、输出门)过滤噪声,保留关键时序特征;通过图卷积层(GCN)聚合相邻节点信息。将LSTM输出的时序特征与GNN提取的关系特征拼接,通过全连接层进行联合预测。在训练过程中自适应平衡时间序列和关系网络的贡献。
2. 创新点
1)首次将 LSTM 与 GNN 结合,通过皮尔逊相关性和关联分析构建动态关系网络,将传统金融分析中的统计方法与深度学习结合,增强了模型对非线性、多因素影响的建模能力。
2)采用扩展窗口验证方法,使模型能够随着时间推移持续学习新增数据。实验验证了混合模型的优越性。
需要论文合集和代码资料的
看我主页【AI学术工坊】