Transformer全局概括



注意:
- Encoder和Decoder的个数可以自己决定,Encoder之间的结构是相同的,Decoder之间的结构是相同的,但是Encoder和Decoder之间的结构是不相同的
- Encoder之间的结构是完全相同的,但是参数是完全不同的,训练的时候是6个Encoder都在训练

Encoder

Decoder

位置编码

- Embedding
将输入的句子切分成字,每个字定义一个512维的字向量

- 位置编码
对于RNN的输入参数u,隐藏参数w,输出参数v,在所有的timestamps,RNN都共享一套参数,更新的时候也是更新整套参数。

RNN是串行化处理,Transformer可以并行化,所有单词可以一起处理,但是忽略了单词间的序列关系(先后关系),这个时候就需要位置编码

将位置编码(512维度)和字向量(512维度)相加,得到最终的Transformer的输入


多头注意力机制


本文介绍Transformer模型的基本结构,包括Encoder和Decoder的组成与工作原理,并详细解释了位置编码的作用及多头注意力机制的应用。
34万+

被折叠的 条评论
为什么被折叠?



