自注意力机制笔记

自注意力机制在深度学习中用于捕捉输入序列的内部关系,通过Q、K、V三个张量实现。Q表示查询,寻找与其他输入的关系;K为键,用于建立输入间的联系;V作为值,结合权重信息产生输出。这种机制允许模型自我学习输入数据的相关性,从而提升表示能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说到自注意力机制就会想到QKV,那么为什么要定义三个Tensor呢?

 

自注意力机制就是通过权重矩阵来自发地找到数据之间的关系,因此肯定需要对每一个输入(input)定义一个tensor,然后通过乘法来得到与输入的关系。

显然,如果一个input只对应一个tensor是不够的,因为a和b的关系与b和a的关系并不是对偶的。

那定义两个呢?

 就是q用来与其他输入找关系,k用来别人和自己找关系。这样两两之间就可以得到了权重关系a了。

既然找到了权重关系,那如何使用?直接对输入进行加权操作显得比较直接,因此又定义了V,对输入加了一层可学习的参数,然后再与权重信息进行操作得到最后的输出。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值