自注意力机制的具像化理解

最新推荐文章于 2025-03-14 18:05:31 发布

鹬.

最新推荐文章于 2025-03-14 18:05:31 发布

阅读量131

点赞数 1

文章标签： transformer

本文链接：https://blog.youkuaiyun.com/WindyHoo99/article/details/145663031

版权

最近paper看的不太勤，经常想不起来自注意力机制，故输出一遍达到费曼学习法。

从Transformer最初的nlp任务讲起。输入若干的词语，编码为word embadding/词向量（即自然语言在一个向量空间的表示，可以理解为把这个词语量化成一串数字，比如用摩斯密码来表示一个词语）。随后就是自注意力层级。词向量分别乘以三个不同的矩阵，得到QKV三个向量，可以理解为把词向量分别表示到三个不同的特征空间，每个特征空间有不同的作用含义。Q即为查询向量，携带了本次的大部分信息，所以很多下游任务一般还会在Q加入位置编码（即根据几何信息给每个词向量添加上独一无二的编码，独一无二是因为几何位置不可能重合，以使得模型可以学习到位置特征）。K空间其实一种信息编码。V也是信息。QKV我认为信息量可能是递增的（没验证过）。

举个例子说明：

有文章把self- Attention看作一种软查询。query就是一个查询语句，包含了一定的信息量，然后从key中找到基本匹配的，再取出key对应的value（一般关系型数据库，key和value多少都有点信息相关度），软查询是因为它会从所有的key中都取出内容，再根据注意力得分来进行归一化，最后输出加权的v.
更详细的例子：

你想买一双白色运动鞋，首先检索白色运动鞋（query），然后网站用你的query和存储的商品数据做比较（用来比较的商品数据可以看做key，可能就是一个商品更详细的描述），然后发现一些相关度高的，一些相关度低的。把它们按照相关度排序，返回它们的主页（更丰富的信息，约等于value），并把这些主页组织在一个网页里返回（加权）。