【论文速看】DL最新进展20241105-Transformer、时间序列预测、Mamba

【Transformer】

[2022 1000层的transformers] DeepNet: Scaling Transformers to 1,000 Layers

机构:Microsoft

论文链接:https://arxiv.org/pdf/2203.00555

代码链接:https://github.com/microsoft/torchscale

文中提出了一种简单而有效的方法来稳定极深的Transformer。具体来说,引入了一种新的归一化函数(DEEPNORM),用于修改Transformer中的残差连接,并伴随理论上推导出的初始化。深入的理论分析表明,模型更新可以以稳定的方式得到限制。所提出的方法结合了两个世界的优点,即Post-LN的良好性能Pre-LN的稳定训练,使DEEPNORM成为一个优先选择。作者成功地将Transformer扩展到1000层(即2500个注意力和前馈网络子层),这比之前的深Transformer深了一个数量级。值得注意的是,在一个包含7482个翻译方向的多语言基准测试中,200层模型具有3.2B参数,显著优于具有12B参数的48层最先进模型,高出5 BLEU点,这表明了一个有希望的扩展方向。

实验结果
在这里插入图片描述

在这里插入图片描述


【时间序列预测】

[2024] TimeBridge: Non-Stationarity Matters for Long-term Time Series Forecasting

论文链接:https://arxiv.org/pdf/2410.04442v1

代码链接:https://github.com/Hank0626/TimeBridge

非平稳性对多变量时间序列预测提出了重大挑战,因为其固有的短期波动和长期趋势可能导致虚假回归或掩盖关键的长期关系。大多数现有方法要么消除要么保留非平稳性,但未能充分解决其对短期和长期建模的不同影响。消除非平稳性对于避免虚假回归和捕捉短期建模中的局部依赖性至关重要,而保留它对于揭示跨变量的长期协整关系是必要的。文中提出了TimeBridge,这是一个新颖的框架,旨在弥合非平稳性和长期时间序列预测中的依赖性建模之间的差距。通过将输入序列分割成较小的片段,TimeBridge应用集成注意力来减轻短期非平稳性并捕获每个变量内的稳定依赖性,同时协整注意力保留非平稳性以模拟跨变量的长期协整关系。大量实验表明,TimeBridge在短期和长期预测中始终实现最先进的性能。此外,TimeBridge在CSI 500和S&P 500指数上的金融预测表现出色,进一步验证了其稳健性和有效性。

在这里插入图片描述

在这里插入图片描述

实验结果
在这里插入图片描述

在这里插入图片描述


【Mamba】

[2024] Mamba®: Vision Mamba ALSO Needs Registers

论文链接:https://arxiv.org/pdf/2405.14858

代码链接:https://github.com/wangf3014/Mamba-Reg

在这里插入图片描述

在这里插入图片描述

实验结果
在这里插入图片描述


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IRevers

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值