Transformer——细节推导

Jokic_Rn

已于 2022-04-24 11:57:48 修改

阅读量2.6k

点赞数 2

分类专栏：深度学习文章标签：计算机视觉

于 2022-03-22 11:44:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44823313/article/details/123656667

版权

本文详细介绍了多头注意力机制在深度学习中的应用，并提供了一个PyTorch实现的示例。通过类`Attention`展示了如何进行张量的排列、矩阵乘法以及softmax操作来计算注意力权重。该机制在Transformer等模型中起到关键作用，用于捕获输入序列的不同方面。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

self attention

在这里插入图片描述

多头注意力实现

class Attention(nn.Module):
    def __init__(self, dim, num_heads=8, qkv_bias=False, qk_scale=None, attn_drop=0., proj_drop=0.):
        super().__init__()
        self.num_heads = num_heads
        head_dim = dim // num_heads
        # NOTE scale factor was wrong in my original version, can set manually to be compat with prev weights
        self.scale = qk_scale or head_dim ** -0.5

        self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)
        self.attn_drop

最低0.47元/天解锁文章

博客等级

码龄6年

156
原创

169
点赞

813
收藏

112
粉丝

关注

私信

热门文章

分类专栏

linux 8篇
学习笔记 14篇
C++ 22篇
深度学习 15篇
机器学习 8篇
matlab 1篇
数据结构 10篇
github 1篇
考研复试 16篇
Qt 7篇
目标检测 5篇
Python 5篇
其他 1篇
数据库 1篇

展开全部收起

上一篇：: Python——PCA主成分分析

下一篇：: simulink常用模块

最新评论

数学分析_空间几何——法向量和梯度的关系
sudo987: 讲的真好,正好解决了我的疑问,阅读之前:二元函数里,梯度方向与是与该点切点的斜率,直观能理解,但是到了三元函数这里就突然指向了与曲面垂直的方向,谢谢.
数学分析_空间几何——法向量和梯度的关系
weixin_41152235: 网上有句话是这样说的“梯度是切面的法线”。可不可以这样理解，在二维情况下，梯度与等值线垂直，也就是说梯度是等值线的切线的法线。
Swin Transformer——细节详解
Jokic_Rn: 参考swin v2
Swin Transformer——细节详解
wzt23: 如果无法整除怎么办
BP神经网络实现手写数字识别
m0_70315952: 你好，为什莫我运行之后显示 Traceback (most recent call last): File "C:\Users\86159\Desktop\1.py", line 5, in <module> import matplotlib.pyplot as plt ModuleNotFoundError: No module named 'matplotlib' 我的matplotlib库已经安装了

大家在看

408第一季 - 数据结构 - 散列表 274

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。