TR4 - Transformer中的多头注意力机制

好名让狗申请了

已于 2024-04-19 14:51:24 修改

阅读量1k

点赞数 19

CC 4.0 BY-SA版权

分类专栏：深度学习 Transformer 文章标签： transformer 深度学习人工智能

于 2024-04-12 17:03:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/chen_blog/article/details/137679975

🍨 本文为🔗365天深度学习训练营中的学习记录博客

🍖 原作者：K同学啊

目录

前言
自注意力机制
- Self-Attention层的具体机制
- Self-Attention 矩阵计算
多头注意力机制
- 例子解析
代码实现
总结与心得体会

前言

多头注意力机制可以说是Transformer中最主要的模块，没有之一。这次我们来仔细分析一下注意力机制与多头注意力机制。

自注意力机制

在Transformer模型中，输入的文本序列经过输入处理转换为一个向量的序列，然后就会被送到第1层的编码器，第一层的编码器的输出同样是一个向量的序列，再送到下一层编码器。
encoder向量流动
通过上图可以发现，向量在层间流动时，向量的数量和维度都是不变的。单层编码器接收到上一层的输入，然后进入自注意力层计算，然后再输入到前馈神经网络中，最后得到每个位置的新向量。

Self-Attention层的具体机制

例如想要翻译的句子为：“The animal didn’t cross the street because it was too tired”。

句子中的it是一个代词，想要知道它具体代指什么，对模型来说并不容易。通过引用Self-Attention机制，模型就会最终计算出it代指的是animal。同样的，当模型处理句子中其他词时，Self-Attention机制也可以让模型不仅仅关注当前位置的词，还关注句中其它位置相关的词，进而更好地理解当前位置的词。

通过一个简单的例子来解释自注意力机制的计算过程：假设一句话为"Thinking Machines"。

自注意力会计算：Thinking-Thinking、Thinking-Machines、Machines-Thinking、Machines-Machines共2的2次方种组合。

具体的计算过程如下：

1 对输入编码器的词向量进行线性变换，得到Query、Key和Value向量。变换的过程是通过词向量分别和3个参数矩阵相乘，参数矩阵可以通过模型训练学习到。

向量计算

2 计算 Attention Score （注意力分数）。

假如我们现在计算Thinking的Attention Score，需要根据Thinking对应的词向量，对句子中的其他词向量都计算一个分数，这些分数决定了在编码Thinking这个词时，对句子中其它位置的词向量的权重。

Attention Score 是根据Thinking对应的Query向量和其他位置的每个词的Key向量进行点积得到的。Thinking的第一个Attention Score 就是q1和k1的点积，第二个分数是 $q_1$ 和 $k_2$ 的点积。
Attention Score计算

3 把得到的每个分数除以 $\sqrt{d_k}$ 。 $d_k$ 是Key向量的维度。这一步的目的是为了在反向传播时，求梯度时更加稳定。

$score_{11} = \frac{q_1 \cdot k_1}{\sqrt{d_k}}$

$score_{12} = \frac{q_1 \cdot k_2}{\sqrt{d_k}}$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。