Were RNNs All We Needed?

最新推荐文章于 2025-12-12 19:34:17 发布

原创最新推荐文章于 2025-12-12 19:34:17 发布 · 628 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

深度学习专栏收录该内容

13 篇文章

订阅专栏

本文是深度学习相关文章，针对《Were RNNs All We Needed?》的翻译。

RNN 就是我们所需要的吗？

摘要
1 引言
2 背景
3 方法
4 RNN 就是我们所需要的吗？
5 相关工作
6 结论
局限性

摘要

2017 年 Transformers 的推出重塑了深度学习的格局。 Transformer 最初是为序列建模而提出的，后来在各个领域取得了广泛的成功。然而，Transformer 的可扩展性限制（特别是在序列长度方面）引发了人们对新颖的循环模型的新兴趣，这些模型在训练期间可并行化，提供可比较的性能，并且可以更有效地扩展。在这项工作中，我们从历史的角度重新审视序列建模，重点关注循环神经网络（RNN），它在变形金刚兴起之前主导了该领域二十年。具体来说，我们研究了 LSTM (1997) 和 GRU (2014)。我们证明，通过简化这些模型，我们可以得出最小版本（minLSTM 和 minGRU），它们（1）比传统模型使用更少的参数，（2）在训练过程中完全可并行化，（3）在一定范围内实现令人惊讶的竞争性能任务数量，可与包括变形金刚在内的最新模型相媲美。

1 引言

2 背景

3 方法

4 RNN 就是我们所需要的吗？

5 相关工作

6 结论

在这项工作中，我们重新回顾了序列建模的历史，重点关注传统的 RNN，特别是 LSTM（1997 年）和 GRU（2014 年），它们在 Transformer 模型兴起之前主导了该领域二十年。我们证明，我们可以通过消除传统 RNN 门对先前状态的依赖来实现传统 RNN 的并行训练。这些架构的进一步简化导致了最小版本——minLSTM 和 minGRU——它们具有以下几个优点：(1) 比传统版本更少的参数，(2) 训练期间的完全并行性，以及 (3) 在一系列任务中具有令人惊讶的竞争性能，尽管其简单性可与现代模型相媲美。在附录中，我们在普通 PyTorch 中提供了 minGRU 和 minLSTM 的实现，仅需要几行代码。这使得它们变得轻量级，并且可供初学者、从业者和研究人员使用。我们希望这项工作能够引发关于序列建模演变的更广泛讨论，鼓励根据更新、更复杂的架构重新评估 LSTM 和 GRU 等更简单的基础模型。鉴于这些具有数十年历史的 RNN 的最小版本的令人惊讶的有效性，以及现代 RNN 架构最近的成功，我们提出了一个问题：“RNN 是我们所需要的吗？”