博客阅读：图解Transformer（The Illustrated Transformer）

最新推荐文章于 2025-04-02 08:00:00 发布

南有芙蕖

最新推荐文章于 2025-04-02 08:00:00 发布

阅读量2.1k

点赞数 7

分类专栏： Machine Learning&Deep Learning 文章标签： python 机器学习人工智能算法 tensorflow

本文链接：https://blog.youkuaiyun.com/weixin_42691585/article/details/108994556

版权

博客阅读：图解Transformer（The Illustrated Transformer）

原文链接：https://jalammar.github.io/illustrated-transformer/
作者：Jay Alammar

前言

在之前的文章中，Attention成了深度学习模型中无处不在的方法，它是种帮助提升NMT（Neural Machine Translation）的翻译效果的思想。在本篇博客中，我们解析下Transformer，该模型扩展Attention来加速训练，并且在特定任务上 transformer 表现比 Google NMT 模型还要好。然而，其最大的好处是可并行。实际上谷歌云推荐将Transformer作为云TPU的推导模型。现在我们将Transformer拆解开来看看它是如何工作的。
Transformer是在"Attention is All You Need"中提出的，其中的TF应用是Tensor2Tensor的子模块。哈佛的NLP团队专门制作了对应的PyTorch的指南说明。本文旨在简化难度，一步一步地解释其中的概念，希望有助于初学者更容易地理解。

在这里插入图片描述

Transformer 是一种基于 encoder-decoder 结构的模型：

在 Encoder 中，

Input 经过 Embedding 后，进行 Positional Encoding

然后是 Multi-head Attention

再进行 Position-wise Feed Forward

每个子层之间做残差连接

在 Decoder 中，

如上图所示，也经过 Positional Encoding，Multi-head attention 和 FFN，子层之间也要做残差连接

但比 Encoder 多了一个 Masked Multi-head attention

最后要经过 Linear 和 Softmax 层，输出概率