时序论文17|ICML24 SAMformer:华为新奇视角讨论Transformer时序预测时的收敛优化问题

图片

论文标题:SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention

论文链接:https://arxiv.org/abs/2402.10198

代码链接:https://github.com/romilbert/samformer

前言

这篇文章发表于ICML2024,文章要解决的问题、以及思路都很新奇,非常推荐大家阅读。基于Transformer的架构在多变量长期预测方面,仍然不如更简单的线性基线。作者首先通过一个toy线性预测问题,展示了Transformer尽管具有很高的表达能力,但无法收敛到它们的真实解,并且注意力机制是导致这种低泛化能力的原因。

基于这一洞见,提出了一个浅层轻量级Transformer模型,当使用感知锐度优化进行优化时,能够成功地逃离不良局部最小值。通过实证表明,这一结果扩展到了所有常用的现实世界多变量时间序列数据集。特别是,SAMformer超越了当前最先进的方法,并且参数数量显著减少。

本文工作

而事实上近期的研究工作在将Transformer应用于时间序列数据时,主要集中于两个方向:一是提高效率,减少注意力机制的二次计算成本;二是对时

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值