注意力机制详解:从基础到应用
1. 注意力机制概述
注意力机制中,“键”(Keys)和“查询”(Queries)现在都有仿射变换(wTh)。以下是“键”(K)、“查询”(Q)和“值”(V)的相关信息总结:
| 名称 | 来源 | 仿射变换 | 目的 |
| ---- | ---- | ---- | ---- |
| 键(K) | 编码器 | 是 | 评分 |
| 查询(Q) | 解码器 | 是 | 评分 |
| 值(V) | 编码器 | 否 | 对齐 |
2. 评分方法
2.1 向量相似度计算
“键”(K)是编码器的隐藏状态,“查询”(Q)是解码器的隐藏状态,它们是具有相同维度的向量。计算两个向量相似度可以使用余弦相似度,公式如下:
[
\text{Cosine Similarity} = \frac{\mathbf{Q} \cdot \mathbf{K}}{|\mathbf{Q}| |\mathbf{K}|}
]
余弦相似度只考虑向量方向,不考虑向量的范数(大小)。为了考虑向量范数,我们可以使用缩放后的余弦相似度,即点积:
[
\text{Dot Product} = \mathbf{Q} \cdot \mathbf{K} = |\mathbf{Q}| |\mathbf{K}| \cos(\theta)
]
点积具有以下特点:
- 如果“键”(K)和“查询”(Q)向量对齐(夹角小且余弦值高),则点积值高。
- 与“查询”向量(Q)的范数(大小)成正比。
- 与“键”向量(K)的范数(大小)成正
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



