注意力机制（Attention mechanism）

原创

已于 2022-11-03 10:23:04 修改 · 1.9k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2022-07-08 17:11:40 首次发布

自注意力机制是深度学习中的关键概念，用于比较和加权输入信息。通过查询（Q）、键（K）和值（V）的相互作用，模型能够识别相关特征。例如，一个渣男在选择备胎时，会根据自己的择偶标准（Q）对比备胎的条件（K），计算相似度，并据此分配注意力（V）。点乘运算衡量向量的相似度，通过归一化权重矩阵，确定对每个备胎的关注程度。这一机制在自然语言处理等领域广泛应用，增强了模型的表达能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自注意力机制（self-attention）

首先，其核心思想为：

$Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V$

其中，Q为query， $Q=W^{Q}X$ ，即查询、要查询的信息

K为key， $K=W^{K}X$ ，即索引、被查询的向量

V为value， $V=W^{V}X$ ，即值、查询到的内容

dk代表k的维度，除以k的维度的平方根，使训练时的梯度保持稳定

Q，K，V都是输入x经过经过线性变换得到的，和它们分别相乘的三个矩阵W是通过学习得到的矩阵，使用这样的线性变换可以提高的模型的拟合能力

举一个例子

有一个渣男，他有 n 个备胎，他想要从自己的备胎里寻找最符合自己期望的，好分配注意力和管理时间

用 Q 表示择偶标准，K表示自身条件，V表示被

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

PL_涵 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。