Transformer架构深度解析:从编码到解码
1. 词嵌入与预测
在Transformer架构中,初始编码器层生成的内容会由后续层进一步处理,以对掩码标记进行预测,而非针对“隐藏状态”本身。若任务为分类,则会使用分类层替代预训练时的语言建模层。无论哪种情况,处理过程都会继续通过构成Transformer架构编码器组件的其余编码器块。
Transformer架构的词嵌入涉及注意力机制,每个词嵌入都基于给定句子中所有标记的词嵌入。这与word2vec算法生成的词嵌入有显著区别:注意力机制会为出现在多个句子中的同一个词生成不同的嵌入,而word2vec无论词的上下文如何,都为给定词生成单一的词嵌入。对于包含n个标记的句子,每个词嵌入的构建都涉及其余(n - 1)个词,因此基于注意力的机制复杂度为O(N^2),其中N是语料库中唯一标记的数量。
2. 位置编码
2.1 位置编码的作用
位置编码被添加到序列中标记的嵌入中,为模型提供标记在序列中的位置信息。由于基于自注意力机制的Transformer模型本身没有顺序或位置感,位置编码对于模型在进行预测时考虑标记的顺序至关重要。它注入了序列中标记相对或绝对位置的信息,这对于翻译、摘要等序列到序列任务非常关键,因为在这些任务中词的顺序至关重要。
位置编码与词嵌入具有相同的维度,这使得我们可以将它们添加到词嵌入中。并且,位置编码会在词嵌入传入Transformer模型之前添加。此外,位置编码使模型能够处理可变长度的序列,还能实现序列的并行处理,这是Transformer模型相对于循环神经网络(RNN)的显著优势。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



