10、Transformer架构深度解析：从编码到解码-优快云博客

本文链接：https://blog.youkuaiyun.com/grpc6streamer/article/details/152641141

Transformer架构深度解析：从编码到解码

1. 词嵌入与预测

在Transformer架构中，初始编码器层生成的内容会由后续层进一步处理，以对掩码标记进行预测，而非针对“隐藏状态”本身。若任务为分类，则会使用分类层替代预训练时的语言建模层。无论哪种情况，处理过程都会继续通过构成Transformer架构编码器组件的其余编码器块。

Transformer架构的词嵌入涉及注意力机制，每个词嵌入都基于给定句子中所有标记的词嵌入。这与word2vec算法生成的词嵌入有显著区别：注意力机制会为出现在多个句子中的同一个词生成不同的嵌入，而word2vec无论词的上下文如何，都为给定词生成单一的词嵌入。对于包含n个标记的句子，每个词嵌入的构建都涉及其余(n - 1)个词，因此基于注意力的机制复杂度为O(N^2)，其中N是语料库中唯一标记的数量。

2. 位置编码

2.1 位置编码的作用

位置编码被添加到序列中标记的嵌入中，为模型提供标记在序列中的位置信息。由于基于自注意力机制的Transformer模型本身没有顺序或位置感，位置编码对于模型在进行预测时考虑标记的顺序至关重要。它注入了序列中标记相对或绝对位置的信息，这对于翻译、摘要等序列到序列任务非常关键，因为在这些任务中词的顺序至关重要。

位置编码与词嵌入具有相同的维度，这使得我们可以将它们添加到词嵌入中。并且，位置编码会在词嵌入传入Transformer模型之前添加。此外，位置编码使模型能够处理可变长度的序列，还能实现序列的并行处理，这是Transformer模型相对于循环神经网络（RNN）的显著优势。