时序论文17｜ICML24 SAMformer：华为新奇视角讨论Transformer时序预测时的收敛优化问题

科学最TOP

已于 2024-11-15 21:14:05 修改

阅读量946

点赞数 14

文章标签： transformer 深度学习人工智能

于 2024-10-08 20:38:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u010681011/article/details/142768798

版权

论文标题：SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention

论文链接：https://arxiv.org/abs/2402.10198

代码链接：https://github.com/romilbert/samformer

前言

这篇文章发表于ICML2024，文章要解决的问题、以及思路都很新奇，非常推荐大家阅读。基于Transformer的架构在多变量长期预测方面，仍然不如更简单的线性基线。作者首先通过一个toy线性预测问题，展示了Transformer尽管具有很高的表达能力，但无法收敛到它们的真实解，并且注意力机制是导致这种低泛化能力的原因。

基于这一洞见，提出了一个浅层轻量级Transformer模型，当使用感知锐度优化进行优化时，能够成功地逃离不良局部最小值。通过实证表明，这一结果扩展到了所有常用的现实世界多变量时间序列数据集。特别是，SAMformer超越了当前最先进的方法，并且参数数量显著减少。

本文工作

而事实上近期的研究工作在将Transformer应用于时间序列数据时，主要集中于两个方向：一是提高效率，减少注意力机制的二次计算成本；二是对时

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。