The Residuals
我们需要提到的编码器架构中的一个细节是,每个编码器中的每个子层(self-attention,,ffnn)周围都有一个残余连接,然后是 layer-normalization 步骤。
如果我们要可视化向量和与 self attention 相关的 layer-norm 运算,它看起来是这样的
这也适用于解码器的子层。如果我们考虑一个由2个堆叠的编码器和解码器组成的Transformer,它看起来就像这样
The Decoder Side
现在我们已经涵盖了编码器方面的大部分概念,我们基本上也知道了解码器的组件是如何工作的。但是让我们看看它们是如何协同工作的。
编码器首先处理输入序列。然后,顶部编码器的输出被转换成一组注意向量K和v。这些将被每个解码器在其编码器-解码器注意层中使用,这有助于解码器专注于输入序列中的适当位置