一、Attention原理

将SourceSourceSource中的构成元素想象成是由一系列的<Key,Value><Key,Value><Key,Value>数据对构成,此时给定TargetTargetTarget中的某个元素QueryQueryQuery,通过计算QueryQueryQuery和各个KeyKeyKey的相似性或者相关性,得到每个KeyKeyKey对应ValueValueValue的权重系数,然后对ValueValueValue进行加权求和,即得到了最终的AttentionAttentionAttention数值。所以本质上AttentionAttentionAttention机制是对SourceSourceSo

本文介绍了Attention机制的基本原理,它通过对Source中的Value进行加权求和来生成Attention数值,权重由Query和Key的相似性决定。接着讨论了向量内积的概念及其在求导中的应用。最后,聚焦于Transformer中的ScaledDot-ProductAttention,这是一种利用向量内积并进行归一化的注意力机制,可以并行计算多个query的注意力得分。
最低0.47元/天 解锁文章
1471

被折叠的 条评论
为什么被折叠?



