文章核心总结与翻译
一、主要内容
本文聚焦长序列模型的公平评估问题,指出传统“从零训练”(随机初始化训练)的评估方式会严重高估不同架构间的性能差异,而利用下游任务数据进行自监督预训练(Self Pretraining, SPT)可有效解决这一问题。
-
核心发现:
- 随机初始化训练会导致对Transformer等架构长序列建模能力的严重低估,通过SPT(基于去噪目标的自监督预训练), vanilla Transformer在Long Range Arena(LRA)基准上能匹配S4等先进状态空间模型(SSMs)的性能。
- SPT对多种架构(Transformer、S4、对角线性RNN等)均有显著性能提升,尤其在PathX-256任务上,S4的准确率通过SPT提升了20个百分点(从67%至87%)。
- 数据驱动的预训练先验会使SSMs中手动设计的结构化参数化(如S4的复杂初始化和参数设计)变得基本冗余,简单模型(如对角线性RNN)经SPT后可达到复杂架构的性能。
- SPT的有效性在不同数据规模、模型规模和模态(文本、图像、语音、生物信号等)中均得到验证,且在数据稀缺时增益更显著。
-
实验设计:
- 基准数据集:以LRA为主(含ListOps、Text、Retrieval等6类任务),额外验证了Speech Commands、sCIFAR、BIDMC等数据集。
- 预

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



