定义
一种基于自注意力机制的深度学习架构
整体架构
Transformer主要由编码器(Encoder)和解码器(Decoder)组成,两者都是由多个相同的层(Layer)堆叠而成。对于机器翻译任务,编码器接收源语言序列作为输入,将其转换为上下文表示,然后解码器利用这些上下文表示生成目标语言序列。
举例子
编码层的处理
解码器的工作过程
通过编码器和解码器的协同工作,Transformer能够将源语言序列“Hello, how are you?”准确地翻译成目标语言序列“你好吗?”。在整个过程中,编码器负责提取源语言序列的上下文信息,解码器利用这些上下文信息生成符合目标语言语法和语义的序列。
学习文章
https://www.zhihu.com/tardis/zm/art/600773858