QKV(Query、Key、Value)是ci注意力机制的核心概念(Q:查询;K: 特征;V:实际词语)
作用类似“查字典”:用“问题”(Query)查“目录”(Key),找到匹配的“内容”(Value),最终整合出结果。我们用一个生活化的例子说明:
例子:老师批改作文时的注意力
假设老师要批改一句话:“小明在操场跑步,他跑得很快”,需要判断“他”指的是谁。这里的QKV可以理解为:
-
Query(Q,查询向量)
对应要“聚焦”的词——这里是“他”。
Q向量的作用是:“我(他)想知道自己指的是谁?”,提取的是“寻找指代对象”的特征。 -
Key(K,键向量)
对应句子中其他词的“特征标签”——这里是“小明”“操场”“跑步”“很快”。
每个词的K向量像“标签”:- “小明”的K:包含“人名、主语、动作发出者”特征;
- “操场”的K:包含“地点”特征;
- “跑步”的K:包含“动作”特征。
-
Value(V,值向量)
对应每个词的“具体内容”——是K标签对应的“实际信息”:- “小明”的V:“一个叫小明的人”;
- “操场”的V:“一个运动的地方”;
- “跑步”的V:“