Transformers are Multi-State RNNs

最新推荐文章于 2026-01-09 21:51:15 发布

原创最新推荐文章于 2026-01-09 21:51:15 发布 · 481 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #Transformer

深度学习专栏收录该内容

13 篇文章

订阅专栏

本文揭示了Transformer解码器本质上可以视为无限多状态RNN，通过限制隐藏状态大小，可转化为有限MSRNN。TOVA作为一种高效压缩策略，实验显示其性能优越，且在某些情况下仅需较小的缓存。研究揭示了Transformer与RNN的联系，并有助于优化LLM缓存选择。

本文是深度学习相关文章，针对《Transformers are Multi-State RNNs》的翻译。

摘要

与上一代最先进的NLP模型——递归神经网络（RNN）相比，transformer在概念上被认为是不同的。在这项工作中，我们证明了仅解码器transformer实际上可以被概念化为无限多状态RNN——一种具有无限隐藏状态大小的RNN变体。我们进一步证明，通过固定其隐藏状态的大小，可以将预训练的transformer转换为有限的多状态RNN。我们观察到，几种现有的transformer缓存压缩技术可以作为这样的转换策略，并引入了一种新的策略TOVA，与这些策略相比，它更简单。我们对几个长范围任务的实验表明，TOVA优于所有其他基线策略，同时几乎与完整（无限）模型不相上下，并且在某些情况下仅使用原始缓存大小的1/8。我们的结果表明，transformer-解码器LLM在实践中通常表现为RNN。他们还提出了减轻最痛苦的计算瓶颈之一——缓存大小的选择。我们公开发布我们的代码仓库。

1 引言

2 背景

3 Transformers是多状态的RNN

4 实验设置

5 预训练Transformers充当有限MSRNs

6 分析

7 相关工作

8 结论

在这项工作中，我们将解码器Transformer重新定义为具有无限多状态大小的多状态RNN（MSRNN）的一种形式。我们强调，限制Transformer在每一步可以处理的token表示的数量相当于将其从无限MSRNN压缩到有限MSRNN。
然后，我们介绍了TOVA，这是一种概念上简单的压缩方法，可以选择哪些token继续使用它们的注意力分数。我们的研究结果强调了与现有压缩策略相比其优越的性能。此外，我们表明，在许多情况下，TOVA的性能与无限MSRNN模型相当，同时需要1/8–1/4的多状态大小。值得注意的是，我们的结果表明，尽管Transformer没有经过这样的训练，但它们通常起到有限MSRNN的作用。
我们的研究结果揭示了Transformer的相互作用及其与RNN的联系。它们还具有实用价值——可以将LLM缓存大小显著减少88%。