论文标题:SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention
论文链接:https://arxiv.org/abs/2402.10198
代码链接:https://github.com/romilbert/samformer
前言
这篇文章发表于ICML2024,文章要解决的问题、以及思路都很新奇,非常推荐大家阅读。基于Transformer的架构在多变量长期预测方面,仍然不如更简单的线性基线。作者首先通过一个toy线性预测问题,展示了Transformer尽管具有很高的表达能力,但无法收敛到它们的真实解,并且注意力机制是导致这种低泛化能力的原因。
基于这一洞见,提出了一个浅层轻量级Transformer模型,当使用感知锐度优化进行优化时,能够成功地逃离不良局部最小值。通过实证表明,这一结果扩展到了所有常用的现实世界多变量时间序列数据集。特别是,SAMformer超越了当前最先进的方法,并且参数数量显著减少。
本文工作
而事实上近期的研究工作在将Transformer应用于时间序列数据时,主要集中于两个方向:一是提高效率,减少注意力机制的二次计算成本;二是对时