本文来源公众号“程序员学长”,仅用于学术分享,侵权删,干货满满。
今天我们来继续分享 Transformer 模型的第二部分,解码器部分。
建议大家先看完第一部分。程序员学长 | 快速学会一个算法,Transformer(上)-优快云博客
解码器 Decoder
上篇文章我们已经介绍了编码器中的大部分概念,也基本知道了编码器的原理。现在让我们来看下, 编码器和解码器是如何协同工作的。
编码器一般有多层,第一个编码器的输入是一个序列文本,最后一个编码器输出是一组序列向量,这组序列向量会作为解码器的 K、V 输入,其中 K=V=解码器输出的序列向量表示。这些注意力向量将会输入到每个解码器的 Encoder-Decoder Attention 层,这有助于解码器把注意力集中到输入序列的合适位置,如下图所示。