Transformer浅析

最新推荐文章于 2025-11-10 11:29:28 发布

原创

最新推荐文章于 2025-11-10 11:29:28 发布 · 2.5k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #机器学习

原论文地址：

https://arxiv.org/abs/1706.03762

原解析地址：

https://jalammar.github.io/illustrated-transformer/

代码地址：

https://github.com/tensorflow/tensor2tensor

一、概述

本文内容是对《Attention Is All You Need》所提出的Transformer模型进行的简单梳理。Transformer的基础即是注意力机制（Attention），该模型由Google主导提出，起初的目的是使用注意力机制来改善NMT（Neural Machine Translation）模型，后来发现transformer在某些特定的任务场景下甚至超越了NMT的性能，因此论文取名《Attention Is All You Need》，意为仅使用Attention模块便足够了，不再需要使用RNN、CNN等复杂结构或搭配混合使用。在transformer之后，基于transformer的BERT模型在NLP领域也得到了很好的发展。本文将穿插记录《Attention Is All You Need》和《The Illustrated Transformer》两篇文章来对transformer模型进行一个简单梳理。

二、Transformer优点

transformer相对于拥有残差结构和卷积结构的深度学习模型来说，其网络结构更加简单，并且训练和推理速度更快。（仅在P100GPUs上训练了12个小时就达到了SOTA水平）。
仅使用transformer在一些特定的任务上能取得更好的测试效果（语言建模，机器翻译等）。
transformer拥有更高的并行度，并作为了谷歌云推荐的TPU（Tensor Processing Unit）推导模型。