【笔记】happy-llm 第二章 Transformer 架构

正文详见:happy-llm/docs/chapter2/第二章 Transformer架构.md at main · datawhalechina/happy-llmhttps://github.com/datawhalechina/happy-llm/blob/main/docs/chapter2/%E7%AC%AC%E4%BA%8C%E7%AB%A0%20Transformer%E6%9E%B6%E6%9E%84.md#%E7%AC%AC%E4%BA%8C%E7%AB%A0-transformer-%E6%9E%B6%E6%9E%84

2.1 注意力机制

2.1.1 什么是注意力机制

注意力机制有三个核心变量:Query(查询值)、Key(键值)和 Value(真值)。其中,K和V是整个文本(集合)。通过计算QueryKey得出文本Query的权重,即Query对整个文本(集合)中每个token的注意力分数。最后将权重和Value进行运算,得出Query和整个文本中的关系。

2.1.2 深入理解注意力机制

例子详见正文。

文中发提到的字典的键值为Key,值为Value。有一点需要注意,在字典中,键唯一,值可以重复。但是在这里,键和值是一一对应的,也就是KeyValue一一对应,不会出现多个Key存在相同的Value。

让我们脱离文中的举例的字典来看。

QueryKey和 Value均是多个词向量堆叠在一起形成的矩阵。三者都是由其对应的权重矩阵得到的。深度学习模型优化的便是这个权重矩阵。

假定Query的第一维度(token数量)大小为N,其中的每一个token的词向量为q ,大小为q_dim不管Query代表什么,Key和 Value应为同一文本(集合)中每个token在不同空间的映射,即二者第一维度(token数量)相等,大小均为M其中的每一个token的词向量为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值