关于d2l中multy-head-Attention代码实现的理解

关于d2l中multy-head-Attention代码实现的理解

2022/10/19:读了Transformer的原文,发现/num_of_head的实现没有问题

代码实现链接:https://zh-v2.d2l.ai/chapter_attention-mechanisms/multihead-attention.html

贴入其他评论区大佬整理的维度分析:

Tensor Shape in Multihead Attention

对encoder的多头注意力机制部分代码的理解:

难度主要来自为了做并行计算而对输入矩阵进行的各种维度变换。

这边多头注意力在transpose_qkv那边做的交换维度的操作主要目的是将计算中可并行的多个head“化作batch_size”和batch_size那个维度放在一起,使输入attention的维度变成(batch_sizehead,num_of_QKV,num_of_hiddens),放入d2l.DotProductAttention(dropout)(缩放点积注意力的实现)中去计算。点积注意力计算过程中是没有参数需要学习,所以可以将多个head需要做的计算当作数量为head的多个batch拆出来和原来的beath拼在一起计算,使得batch数量从原batch_size->batch_sizehead

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值