【Transformer】
[2022 1000层的transformers] DeepNet: Scaling Transformers to 1,000 Layers
机构:Microsoft
论文链接:https://arxiv.org/pdf/2203.00555
代码链接:https://github.com/microsoft/torchscale
文中提出了一种简单而有效的方法来稳定极深的Transformer。具体来说,引入了一种新的归一化函数(DEEPNORM),用于修改Transformer中的残差连接,并伴随理论上推导出的初始化。深入的理论分析表明,模型更新可以以稳定的方式得到限制。所提出的方法结合了两个世界的优点,即Post-LN的良好性能和Pre-LN的稳定训练,使DEEPNORM成为一个优先选择。作者成功地将Transformer扩展到1000层(即2500个注意力和前馈网络子层),这比之前的深Transformer深了一个数量级。值得注意的是,在一个包含7482个翻译方向的多语言基准测试中,200层模型具有3.2B参数,显著优于具有12B参数的48层最先进模型,高出5 BLEU点,这表明了一个有希望的扩展方向。
实验结果
【时间序列预测】
[2024] TimeBridge: Non-Stationarity Matters for Long-term Time Series Forecasting
论文链接:https://arxiv.org/pdf/2410.04442v1
代码链接:https://github.com/Hank0626/TimeBridge
非平稳性对多变量时间序列预测提出了重大挑战,因为其固有的短期波动和长期趋势可能导致虚假回归或掩盖关键的长期关系
。大多数现有方法要么消除要么保留非平稳性,但未能充分解决其对短期和长期建模的不同影响。消除非平稳性对于避免虚假回归和捕捉短期建模中的局部依赖性至关重要,而保留它对于揭示跨变量的长期协整关系是必要的。文中提出了TimeBridge,这是一个新颖的框架,旨在弥合非平稳性和长期时间序列预测中的依赖性建模之间的差距。通过将输入序列分割成较小的片段,TimeBridge应用集成注意力来减轻短期非平稳性并捕获每个变量内的稳定依赖性,同时协整注意力保留非平稳性以模拟跨变量的长期协整关系。大量实验表明,TimeBridge在短期和长期预测中始终实现最先进的性能。此外,TimeBridge在CSI 500和S&P 500指数上的金融预测表现出色,进一步验证了其稳健性和有效性。
实验结果
【Mamba】
[2024] Mamba®: Vision Mamba ALSO Needs Registers
论文链接:https://arxiv.org/pdf/2405.14858
代码链接:https://github.com/wangf3014/Mamba-Reg
实验结果