一文读懂「Attention is All You Need」| 附代码实现

最新推荐文章于 2025-06-03 20:10:27 发布

云栖精选

最新推荐文章于 2025-06-03 20:10:27 发布

阅读量1.7w

点赞数 4

本文针对Google的论文《Attention is All You Need》进行了深入解析，探讨了如何仅依靠注意力机制完成序列到序列的学习任务，摒弃传统的RNN结构，介绍了纯Attention机制在自然语言处理中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

2017 年中，有两篇类似同时也是笔者非常欣赏的论文，分别是 FaceBook 的Convolutional Sequence to Sequence Learning和 Google 的Attention is All You Need，它们都算是 Seq2Seq 上的创新，本质上来说，都是抛弃了 RNN 结构来做 Seq2Seq 任务。

在本篇文章中，笔者将对Attention is All You Need做一点简单的分析。当然，这两篇论文本身就比较火，因此网上已经有很多解读了（不过很多解读都是直接翻译论文的，鲜有自己的理解），因此这里尽可能多自己的文字，尽量不重复网上各位大佬已经说过的内容。

序列编码

深度学习做 NLP 的方法，基本上都是先将句子分词，然后每个词转化为对应的词向量序列。这样一来，每个句子都对应的是一个矩阵 X=(x1,x2,…,xt)，其中 xi 都代表着第 i 个词的词向量（行向量），维度为 d 维，故

。这样的话，问题就变成了编码这些序列了。