Transformers are Multi-State RNNs

本文揭示了Transformer解码器本质上可以视为无限多状态RNN,通过限制隐藏状态大小,可转化为有限MSRNN。TOVA作为一种高效压缩策略,实验显示其性能优越,且在某些情况下仅需较小的缓存。研究揭示了Transformer与RNN的联系,并有助于优化LLM缓存选择。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是深度学习相关文章,针对《Transformers are Multi-State RNNs》的翻译。

摘要

与上一代最先进的NLP模型——递归神经网络(RNN)相比,transformer在概念上被认为是不同的。在这项工作中,我们证明了仅解码器transformer实际上可以被概念化为无限多状态RNN——一种具有无限隐藏状态大小的RNN变体。我们进一步证明,通过固定其隐藏状态的大小,可以将预训练的transformer转换为有限的多状态RNN。我们观察到,几种现有的transformer缓存压缩技术可以作为这样的转换策略,并引入了一种新的策略TOVA,与这些策略相比,它更简单。我们对几个长范围任务的实验表明,TOVA优于所有其他基线策略,同时几乎与完整(无限)模型不相上下,并且在某些情况下仅使用原始缓存大小的1/8。我们的结果表明,transformer-解码器LLM在实践中通常表现为RNN。他们还提出了减轻最痛苦的计算瓶颈之一——缓存大小的选择。我们公开发布我们的代码仓库

1 引言

2 背景

3 Transformers是多状态的RNN

4 实验设置

5 预训练Transformers充当有限MSRNs

6 分析

7 相关工作

8 结论

在这项工作中,我们将解码器Transformer重新定义为具有无限多状态大小的多状态RNN(MSRNN)的一种形式。我们强调,限制Transformer在每一步可以处理的token表示的数量相当于将其从无限MSRNN压缩到有限MSRNN。
然后,我们介绍了TOVA,这是一种概念上简单的压缩方法,可以选择哪些token继续使用它们的注意力分数。我们的研究结果强调了与现有压缩策略相比其优越的性能。此外,我们表明,在许多情况下,TOVA的性能与无限MSRNN模型相当,同时需要1/8–1/4的多状态大小。值得注意的是,我们的结果表明,尽管Transformer没有经过这样的训练,但它们通常起到有限MSRNN的作用。
我们的研究结果揭示了Transformer的相互作用及其与RNN的联系。它们还具有实用价值——可以将LLM缓存大小显著减少88%。

9 局限性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值