2.1 注意力机制
2.1.1 什么是注意力机制
注意力机制有三个核心变量:Query(查询值)、Key(键值)和 Value(真值)。其中,K和V是整个文本(集合)。通过计算Query和Key得出文本对Query的权重,即Query对整个文本(集合)中每个token的注意力分数。最后将权重和Value进行运算,得出Query和整个文本中的关系。
2.1.2 深入理解注意力机制
例子详见正文。
文中发提到的字典的键值为Key,值为Value。有一点需要注意,在字典中,键唯一,值可以重复。但是在这里,键和值是一一对应的,也就是Key和Value一一对应,不会出现多个Key存在相同的Value。
让我们脱离文中的举例的字典来看。
Query、Key和 Value均是多个词向量堆叠在一起形成的矩阵。三者都是由其对应的权重矩阵得到的。深度学习模型优化的便是这个权重矩阵。
假定Query的第一维度(token数量)大小为N,其中的每一个token的词向量为q ,大小为q_dim。不管Query代表什么,Key和 Value应为同一文本(集合)中每个token在不同空间的映射,即二者第一维度(token数量)相等,大小均为M,其中的每一个token的词向量为

最低0.47元/天 解锁文章
372

被折叠的 条评论
为什么被折叠?



