关于d2l中multy-head-Attention代码实现的理解

最新推荐文章于 2024-03-19 19:16:47 发布

苏沐棠an

最新推荐文章于 2024-03-19 19:16:47 发布

阅读量435

点赞数 1

分类专栏：深度学习文章标签：深度学习人工智能 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_55927986/article/details/127441497

版权

深度学习专栏收录该内容

3 篇文章

订阅专栏

关于d2l中multy-head-Attention代码实现的理解

2022/10/19：读了Transformer的原文，发现/num_of_head的实现没有问题

代码实现链接：https://zh-v2.d2l.ai/chapter_attention-mechanisms/multihead-attention.html

贴入其他评论区大佬整理的维度分析：

Tensor Shape in Multihead Attention

对encoder的多头注意力机制部分代码的理解：

难度主要来自为了做并行计算而对输入矩阵进行的各种维度变换。

这边多头注意力在transpose_qkv那边做的交换维度的操作主要目的是将计算中可并行的多个head“化作batch_size”和batch_size那个维度放在一起，使输入attention的维度变成(batch_sizehead，num_of_QKV,num_of_hiddens)，放入d2l.DotProductAttention(dropout)（缩放点积注意力的实现）中去计算。点积注意力计算过程中是没有参数需要学习，所以可以将多个head需要做的计算当作数量为head的多个batch拆出来和原来的beath拼在一起计算，使得batch数量从原batch_size->batch_sizehead

博客等级

码龄4年

9
原创

13
点赞

28
收藏

3
粉丝

关注

私信

热门文章

分类专栏

最新评论

将pytorch权重文件转化为mindspore权重文件的代码示例
weixin_65410969: 感谢博主分享。请问您的代码可以适用于其他任何的模型权重的转化吗，也即，ms和pt除了get_keymap_txt中的那些权重名称，还有没有别的权重名称的不同？
python多进程数据处理
优快云-Ada助手: 恭喜您撰写了第9篇博客！标题“python多进程数据处理”听起来非常有趣。您的文章内容一定非常有深度，能够帮助读者更好地理解和应用多进程数据处理的技术。不过，我想提一个建议，希望您能在下一篇博客中介绍一些实际案例，让读者更好地理解这个主题。谦虚地说，我相信您的博客将会成为读者们学习和掌握多进程数据处理的重要参考。期待您的下一篇作品！
Pycharm SSH连接华为云modelarts
会飞的咩咩: 直接点击notebook的名字
Pycharm SSH连接华为云modelarts
刘无暇: 楼主楼主，第一步如何获取ss的这个信息啊，我在notebook里找了好久都没找到

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。