【Transformer】iTransformer: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING

原创

已于 2023-10-31 15:42:15 修改 · 1.1w 阅读

100 ·

CC 4.0 BY-SA版权

文章标签：

#推荐算法 #python #深度学习 #人工智能

于 2023-10-30 22:03:55 首次发布

研究人员提出iTransformer，通过反转Transformer结构，有效解决时序预测中的问题，尤其在多维时间序列任务上表现出色。模型结构创新，包括层归一化、前馈网络和自注意力机制，提升了模型性能和泛化能力。

#论文题目：ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING
#论文地址：https://arxiv.org/abs/2310.06625
#论文源码开源地址：https://github.com/thuml/Time-Series-Library
#论文所属会议：Machine Learning (cs.LG)
#论文所属单位：清华大学、蚂蚁集团

在这里插入图片描述

一、导读

最近，来自清华大学和蚂蚁集团的研究人员重新审视Transformer结构在时序分析中的应用，提出一个全新的反转视角——无需修改任何模块，即可实现Transformer在时序预测任务上的全面领先。
其中，作者提出的iTransformer，考虑多维时间序列的数据特性，未修改任何Transformer模块，而是打破常规模型结构，在复杂时序预测任务中取得了全面领先，试图解决Transformer建模时序数据的痛点。

二、研究背景

现实世界的时序数据往往是多维的，除了时间维之外，还包括变量维度。每个变量可以代表不同的观测物理量，例如气象预报中使用的多个气象指标（风速，温度，湿度，气压等），也可以代表不同的观测主体，例如发电厂不同设备的每小时发电量等。一般而言，不同的变量具有完全不同的物理含义，即使语义相同，其测量单位也可能完全不同。
传统的Transformer模型在时间序列预测中存在性能下降和计算爆炸的问题，同时对于具有较大回溯窗口的序列预测也存在挑战。此外，传统的Transformer模型将每个时间步的多个变量嵌入到同一个标记中，可能导致学习到的注意力图无意义。不同于自然语言中的每个词（Token）具有较强的独立语义信息，在同为序列的时序数据上，现有Transformer视角下看到的每个「词」（Temporal Token）往往缺乏语义性，并且面临时间戳非对齐与感受野过小等问题。也就是说，传统Transformer的在时间序列上的建模能力被极大程度地弱化了。
为此，作者提出了一种全新的倒置（Inverted）视角。如下图，通过倒置Transformer原本的模块，iTransformer先将同一变量的整条序列映射成高维特征表示（Variate Token），得到的特征向量以变量为描述的主体，独立地刻画了其反映的历史过程。此后，注意力模块可天然地建模变量之间的相关性（Mulitivariate Correlation），前馈网络则在时间维上逐层编码历史观测的特征，并且将学到的特征映射为未来的预测结果。相比之下，以往没有在时序数据上深入探究的层归一化（Layer

最低0.47元/天解锁文章