自注意力机制的具像化理解

最近paper看的不太勤,经常想不起来自注意力机制,故输出一遍达到费曼学习法。

从Transformer最初的nlp任务讲起。输入若干的词语,编码为word embadding/词向量(即自然语言在一个向量空间的表示,可以理解为把这个词语量化成一串数字,比如用摩斯密码来表示一个词语)。随后就是自注意力层级。词向量分别乘以三个不同的矩阵,得到QKV三个向量,可以理解为把词向量分别表示到三个不同的特征空间,每个特征空间有不同的作用含义。Q即为查询向量,携带了本次的大部分信息,所以很多下游任务一般还会在Q加入位置编码(即根据几何信息给每个词向量添加上独一无二的编码,独一无二是因为几何位置不可能重合,以使得模型可以学习到位置特征)。K空间其实一种信息编码。V也是信息。QKV我认为信息量可能是递增的(没验证过)。

举个例子说明:

有文章把self- Attention看作一种软查询。query就是一个查询语句,包含了一定的信息量,然后从key中找到基本匹配的,再取出key对应的value(一般关系型数据库,key和value多少都有点信息相关度),软查询是因为它会从所有的key中都取出内容,再根据注意力得分来进行归一化,最后输出加权的v.
更详细的例子:

你想买一双白色运动鞋,首先检索白色运动鞋(query),然后网站用你的query和存储的商品数据做比较(用来比较的商品数据可以看做key,可能就是一个商品更详细的描述),然后发现一些相关度高的,一些相关度低的。把它们按照相关度排序,返回它们的主页(更丰富的信息,约等于value),并把这些主页组织在一个网页里返回(加权)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值