文章目录
前言
1. LSTM 结构
2. sLSTM结构
引入了指数门(红色)以及归一化和稳定化
其整体结构如下(未涉及稳定化)所示:
对更新门和遗忘门进行稳定化处理:
同时,还支持以下结构
记忆混合(Memory Mixing):sLSTM允许通过循环连接(recurrent connections)进行记忆混合,这在原始的LSTM中是不可能的。这种新的记忆混合技术允许sLSTM在不同的内存单元之间共享信息。
多头部结构(Multi-Head Structure):sLSTM可以具有多个头部,每个头部都有自己的记忆混合,但头部之间没有跨头的记忆混合。这种设计为sLSTM提供了一种新的记忆混合方式。
3. mLSTM结构
提高LSTM的存储容量,我们将LSTM的存储单元从标量
c
∈
R
c∈R
c∈R 增加到矩阵
c
∈
R
d
×
d
c∈R^{d×d}
c∈Rd×d.
并使用类似于Tranformer注意力机制的q,k,v对
c
c
c 进行更新
其整体结构如下所示:
特点:
并行化(Parallelization):与sLSTM不同,mLSTM的设计允许完全的并行化处理,因为它放弃了隐藏层之间的循环连接(memory mixing)。
协方差更新规则(Covariance Update Rule):mLSTM使用协方差更新规则来存储和检索信息。这种规则通过将键(key)和值(value)对存储为矩阵的行或列来实现,从而提高了检索的分离度和信号/噪声比。
多头部和多单元结构:mLSTM可以扩展为多个头部和多个单元,其中多个头部和多个单元在mLSTM中是等效的,因为它没有跨头部的记忆混合。
4. xLSTM结构
xLSTM 使用了残差堆叠架构,将 sLSTM 和 mLSTM 集成到残差块(residual block)中,通过残差堆叠形成更复杂的架构。
一、xLSTMTime模型
网络结构
二、xLSTM-Mixer
网络结构
xLSTM-Mixer架构包括三个阶段:
(1) 假设信道独立,并执行时间混合的初始 NLinear 预测;
(2) 后续联合混合(Joint Mixing),通过两个不同角度(包括Reverse View)的 sLSTM块 的混合变量和时间信息;
(3) 最终视图混合,将两个潜在的预测结果混合,得到最终预测。
实验结果
长时间序列预测
对4种不同预测长度{96、192、336、720}的结果求平均值
总结
参考
论文:
XLSTM:Extended Long Short-Term Memory
xLSTMTime : Long-term Time Series Forecasting With xLSTM