TR4 - Transformer中的多头注意力机制

好名让狗申请了

已于 2024-04-19 14:51:24 修改

阅读量1k

点赞数 19

CC 4.0 BY-SA版权

分类专栏：深度学习 Transformer 文章标签： transformer 深度学习人工智能

于 2024-04-12 17:03:02 首次发布

本文链接：https://blog.youkuaiyun.com/chen_blog/article/details/137679975

本文详细介绍了Transformer模型中的自注意力机制，包括其如何处理代词指代问题，以及多头注意力机制如何通过多个注意力头扩展模型关注范围。作者还提供了代码实现，并强调了多头注意力机制在计算效率上的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

🍨 本文为🔗365天深度学习训练营中的学习记录博客

🍖 原作者：K同学啊

前言

多头注意力机制可以说是Transformer中最主要的模块，没有之一。这次我们来仔细分析一下注意力机制与多头注意力机制。

自注意力机制

在Transformer模型中，输入的文本序列经过输入处理转换为一个向量的序列，然后就会被送到第1层的编码器，第一层的编码器的输出同样是一个向量的序列，再送到下一层编码器。
encoder向量流动
通过上图可以发现，向量在层间流动时，向量的数量和维度都是不变的。单层编码器接收到上一层的输入，然后进入自注意力层计算，然后再输入到前馈神经网络中，最后得到每个位置的新向量。

Self-Attention层的具体机制

例如想要翻译的句子为：“The animal didn’t cross the street because it was too tired”。

句子中的it是一个代词，想要知道它具体代指什么，对模型来说并不容易。通过引用Self-Attention机制，模型就会最终计算出it代指的是animal。同样的，当模型处理句子中其他词时，Self-Attention机制也可以让模型不仅仅关注当前位置的词，还关注句中其它位置相关的词，进而更好地理解当前位置的词。

通过一个简单的例子来解释自注意力机制的计算过程：假设一句话为"Thinking Machines"。

自注意力会计算：Thinking-Thinking、Thinking-Machines、Machines-Thinking、Machines-Machines共2的2次方种组合。

具体的计算过程如下：