学习笔记|Transformer——实现“序列to序列”的转换

最新推荐文章于 2025-10-20 19:59:25 发布

原创

最新推荐文章于 2025-10-20 19:59:25 发布 · 2.1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #学习 #深度学习 #人工智能

本文深入探讨Transformer网络结构，包括Encoder的自注意力机制和残差连接，以及Decoder的自回归工作原理和Cross-Attention层。Transformer在序列到序列任务中发挥关键作用，其Encoder通过多头自注意力捕获输入序列全局信息，Decoder利用Encoder输出和自回归机制生成目标序列。

文章目录

1. Transformer 概述
2. Transformer的Encoder
3. Transformer的Decoder
- 3.1 Decoder的自回归（Autoregressive）机制。
- 3.2 Decoder的结构

1. Transformer 概述

在机器学习中，我们有很多任务都是 “序列to序列” 的形式，比如语音识别、机器翻译、文本标注等等。而且在这些任务中，输入序列和输出序列的长度都是不定的，如么如何实现这种序列的转换呢？这就要用到一个很常见的网络架构— transformer 。transformer的一般结构如下图所示，包括编码（Encoder）和解码(Decoder)两个部分。Encoder对输入序列进行编码输出一个序列，转交给Decoder,Decoder对这个序列进行解码，输出我们需要的序列。
tansformer一般结构

2. Transformer的Encoder

首先，我们来看一下transformer的Encoder架构是怎样的。transformer对输入序列进行编码生成另一个长度相等的序列，如下图所示，这里假设输入序列是向量 $x_1、x_2、x_3、x_4$ ，对应的输出是向量 $h_1、h_2、h_3、h_4$ 。编码的目的实际上就要考虑序列的全局并聚焦重点，所以Encoder的核心就是自注意力机制，但不仅仅只有自注意力机制。
编码器
Encoder由多个Block组成，每个Block又由自注意力（self-attention）网络和全连接（full-connected）组成。向量 $x_1、x_2、x_3、x_4$