Attention中Q,K,V的 作用机制

文章讨论了在模拟考试场景下,softmax函数如何计算Q和K的相关性,以及layernorm在归一化中的作用,防止结果偏差。同时提到注意力机制中key、value和query的角色,并提及自注意力机制的特点。
前提:

要保证:

例子:

一个人去考试,Q代表要考几场,每场考试有几道题;K表示有几个小姐姐可以来抄答案,每个小姐姐擅长每道题的概率;那么Q·K的结果的意义就是这个人在每场考试中抄每个人答案的概率。V中是每个小姐姐对每个题的答案,让刚才得出的结果再乘V,得出的结果就是这个人在每场考试中抄来的每道题的答案。

具体:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值