2024_ICLR-Never Train from Scratch: FAIR COMPARISON OF LONGSEQUENCE MODELS REQUIRES DATA-DRIVEN PRIO

文章核心总结与翻译

一、主要内容

本文聚焦长序列模型的公平评估问题,指出传统“从零训练”(随机初始化训练)的评估方式会严重高估不同架构间的性能差异,而利用下游任务数据进行自监督预训练(Self Pretraining, SPT)可有效解决这一问题。

  1. 核心发现

    • 随机初始化训练会导致对Transformer等架构长序列建模能力的严重低估,通过SPT(基于去噪目标的自监督预训练), vanilla Transformer在Long Range Arena(LRA)基准上能匹配S4等先进状态空间模型(SSMs)的性能。
    • SPT对多种架构(Transformer、S4、对角线性RNN等)均有显著性能提升,尤其在PathX-256任务上,S4的准确率通过SPT提升了20个百分点(从67%至87%)。
    • 数据驱动的预训练先验会使SSMs中手动设计的结构化参数化(如S4的复杂初始化和参数设计)变得基本冗余,简单模型(如对角线性RNN)经SPT后可达到复杂架构的性能。
    • SPT的有效性在不同数据规模、模型规模和模态(文本、图像、语音、生物信号等)中均得到验证,且在数据稀缺时增益更显著。
  2. 实验设计

    • 基准数据集:以LRA为主(含ListOps、Text、Retrieval等6类任务),额外验证了Speech Commands、sCIFAR、BIDMC等数据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值