深入了解Transformer模型:架构、分类与训练
1. Transformer基础架构
1.1 编码器 - 解码器架构
Transformer最初采用编码器 - 解码器架构,与序列到序列(seq2seq)模型类似。编码器将输入序列嵌入转换为固定长度的向量,解码器则将编码器的输出向量转换为输出序列嵌入。编码器和解码器都由多个堆叠层组成,每层都使用注意力机制。
1.2 残差和归一化层
基于Transformer的网络通常会复用现有的先进机器学习方法,如注意力机制。编码器和解码器层会将神经网络与残差连接和归一化步骤相结合,有助于提高模型的训练稳定性和性能。
1.3 Transformer架构概述
Transformer与带有注意力机制的seq2seq模型有相似之处,也有不同点:
| 相似点 | 不同点 |
| ---- | ---- |
| 都处理源序列和目标序列 | seq2seq使用循环和注意力层,Transformer使用Transformer块 |
| 都采用编码器 - 解码器架构 | seq2seq编码器状态传递到第一个循环时间步,Transformer编码器状态传递到解码器的每个块 |
| 编码器最后块的输出作为上下文向量用于解码器计算注意力 | seq2seq输出通过循环层,Transformer输出通过线性变换和softmax函数 |
Transformer架构的优势在于可以并行处理时间步,消除了seq2seq模型中的时间依赖。为了提供位置信息,引入了位置编码层。
超级会员免费看
订阅专栏 解锁全文
2327

被折叠的 条评论
为什么被折叠?



