Attention机制与Self-Attention机制的区别

最新推荐文章于 2025-11-22 11:15:01 发布

原创最新推荐文章于 2025-11-22 11:15:01 发布 · 置顶 · 4.7w 阅读

90 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #深度学习 #神经网络 #机器学习 #tensorflow

NLP 专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了Attention机制及其变种Self-Attention的工作原理，对比了两者在Encoder-Decoder模型中的应用差异。传统Attention机制依赖于Source和Target间的交互，而Self-Attention则专注于Source或Target内部元素的相互作用。

部署运行你感兴趣的模型镜像

本文主要讲解Attention机制与Self-Attention机制的区别，默认读者已经了解过Attention、Self-Attention、Transformer、seq2seq model。

传统的Attention机制在一般任务的Encoder-Decoder model中，输入Source和输出Target内容是不一样的，比如对于英-中机器翻译来说，Source是英文句子，Target是对应的翻译出的中文句子，Attention机制发生在Target的元素Query和Source中的所有元素之间。简单的讲就是Attention机制中的权重的计算需要Target来参与的，即在Encoder-Decoder model中Attention权值的计算不仅需要Encoder中的隐状态而且还需要Decoder 中的隐状态。

而Self Attention顾名思义，指的不是Target和Source之间的Attention机制，而是Source内部元素之间或者Target内部元素之间发生的Attention机制，也可以理解为Target=Source这种特殊情况下的注意力计算机制。例如在Transformer中在计算权重参数时将文字向量转成对应的KQV，只需要在Source处进行对应的矩阵操作，用不到Target中的信息。

您可能感兴趣的与本文相关的镜像