前言
从端到端的角度来看,数据在Transformer中的流转可以概括为四个阶段:Embedding(嵌入)、Attention(注意力机制)、MLPs(多层感知机)和Unembedding(从模型表示到最终输出)。
下面对第三个阶段MLPs(多层感知机或前馈网络)进行详细介绍:
MLPs(多层感知机)在Transformer中的位置:
- Transformer的编码器和解码器结构:
(1)Transformer的编码器由多个相同的层堆叠而成,每个层包含两个主要的子层:一个多头自注意力(Multi-Head Self-Attention)机制和一个全连接的前馈神经网络(MLP)。
(2)Transformer的解码器也由多个相同的层堆叠而成,但每个层包含三个主要的子层:一个Masked Multi-Head Self-Attention机制(用于编码器的输出),一个Multi-Head Encoder-Decoder Attention机制(用于结合编码器的输出和解码器的当前位置信息),以及一个全连接的前馈神经网络(MLP)。