交叉注意力(Cross-Attention)则是在两个不同序列上计算注意力,用于处理两个序列之间的语义关系。在两个不同的输入序列之间计算关联度和加权求和的机制。具体来说,给定两个输入序列,cross attention机制将一个序列中的每个元素与另一个序列中的所有元素计算关联度,并根据关联度对两个序列中的每个元素进行加权求和。这样的机制使模型能够建立不同序列之间的关联关系,并将两个序列的信息融合起来。例如,在翻译任务中,需要将源语言句子和目标语言句子进行对齐,就需要使用交叉注意力来计算两个句子之间的注意力权重。
交叉注意力机制是一种特殊形式的多头注意力,它将输入张量拆分成两个部分 和
,然后将其中一个部分作为查询集合,另一个部分作为键值集合。它的输出是一个大小为
的张量,对于每个行向量,都给出了它对于所有行向量的注意力权重。
令 和

最低0.47元/天 解锁文章
4129

被折叠的 条评论
为什么被折叠?



