Transformer之Residuals & Decoder

The Residuals

我们需要提到的编码器架构中的一个细节是,每个编码器中的每个子层(self-attention,,ffnn)周围都有一个残余连接,然后是 layer-normalization 步骤。
在这里插入图片描述
如果我们要可视化向量和与 self attention 相关的 layer-norm 运算,它看起来是这样的
在这里插入图片描述
这也适用于解码器的子层。如果我们考虑一个由2个堆叠的编码器和解码器组成的Transformer,它看起来就像这样
在这里插入图片描述

The Decoder Side

现在我们已经涵盖了编码器方面的大部分概念,我们基本上也知道了解码器的组件是如何工作的。但是让我们看看它们是如何协同工作的。

编码器首先处理输入序列。然后,顶部编码器的输出被转换成一组注意向量K和v。这些将被每个解码器在其编码器-解码器注意层中使用,这有助于解码器专注于输入序列中的适当位置

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值