43、注意力机制详解:从基础到应用

注意力机制详解:从基础到应用

1. 注意力机制概述

注意力机制中,“键”(Keys)和“查询”(Queries)现在都有仿射变换(wTh)。以下是“键”(K)、“查询”(Q)和“值”(V)的相关信息总结:
| 名称 | 来源 | 仿射变换 | 目的 |
| ---- | ---- | ---- | ---- |
| 键(K) | 编码器 | 是 | 评分 |
| 查询(Q) | 解码器 | 是 | 评分 |
| 值(V) | 编码器 | 否 | 对齐 |

2. 评分方法

2.1 向量相似度计算

“键”(K)是编码器的隐藏状态,“查询”(Q)是解码器的隐藏状态,它们是具有相同维度的向量。计算两个向量相似度可以使用余弦相似度,公式如下:
[
\text{Cosine Similarity} = \frac{\mathbf{Q} \cdot \mathbf{K}}{|\mathbf{Q}| |\mathbf{K}|}
]
余弦相似度只考虑向量方向,不考虑向量的范数(大小)。为了考虑向量范数,我们可以使用缩放后的余弦相似度,即点积:
[
\text{Dot Product} = \mathbf{Q} \cdot \mathbf{K} = |\mathbf{Q}| |\mathbf{K}| \cos(\theta)
]
点积具有以下特点:
- 如果“键”(K)和“查询”(Q)向量对齐(夹角小且余弦值高),则点积值高。
- 与“查询”向量(Q)的范数(大小)成正比。
- 与“键”向量(K)的范数(大小)成正

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值