自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

red_guy的博客

懒惰才能让科技进步

博客等级

码龄4年

37
原创

881
点赞

694
收藏

603
粉丝

关注

私信

热门文章

分类专栏

最新评论

从零学习大模型（五）-----提示学习（Prompt Engineering）
chrisleequeen: 厉害哇(⊙o⊙)我要跟着博主一块学习大模型！！！
LLAMA2入门（一）-----预训练
dirtyboy6666: 感觉llama2的预训练数据集说的不明确，有没有复用llama1的数据集？还是我没有看仔细
从零学习大模型（十）-----剪枝基本概念
懒惰才能让科技进步: 谢谢，对你有帮助我很开心呢。
Swin Transformer论文解读
没礼貌吗？: 谢谢，我懂了
Swin Transformer论文解读
懒惰才能让科技进步: 在Swin Transformer中，qkv = self.qkv(x).reshape(B_, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4) 这一行代码涉及到窗口的数量，是因为输入特征图在计算注意力之前已经被划分为多个窗口，每个窗口分别计算自注意力操作。这里的 B_ 其实是批次大小乘以窗口的数量，这样的处理方法是为了能够有效地对每个窗口进行独立的注意力计算。具体来说，Swin Transformer首先将输入特征图划分为多个小窗口（通常是 $M \times M$ 大小），然后对这些小窗口进行批处理来计算注意力。为了更好地理解代码中涉及的操作，让我们分析各个维度的含义： x 是输入特征图，经过线性变换得到 qkv。这个操作是为每个元素生成 Q（查询）、K（键）、V（值），对应的形状是 [B_, N, 3 * embed_dim]，这里的 3 * embed_dim 是因为 qkv 包含了三组参数。 self.qkv(x).reshape(B_, N, 3, self.num_heads, C // self.num_heads) 这一步将 qkv 的形状进行调整为 [B_, N, 3, num_heads, C // num_heads]，其中： B_ 是批次大小乘以窗口的数量，表示每个批次下所有窗口的数量。 N 是窗口内的元素数量，即每个窗口中的像素数量。 3 表示 Q、K 和 V。 num_heads 表示多头注意力的头数。 C // num_heads 表示每个注意力头的嵌入维度。 .permute(2, 0, 3, 1, 4) 用于改变张量的维度顺序，将形状变为 [3, B_, num_heads, N, C // num_heads]。这一步是为了方便后续将 qkv 分割成 Q、K 和 V，即： 3 表示分别取出 Q、K 和 V。 B_ 是批次大小乘以窗口数量。 num_heads 是多头注意力的数量。 N 是窗口内的元素数。 C // num_heads 是每个头的嵌入维度。因此，窗口数量的引入是因为 Swin Transformer 中注意力计算是基于多个小窗口进行的。每个窗口共享相同的 Q、K、V 参数矩阵，但计算时是对各个窗口独立进行

大语言模型

关注

文章平均质量分 84

不断更行各种大语言模型的知识

关注数：文章数：19 文章阅读量：30157 文章收藏量：317

作者: 懒惰才能让科技进步

中科院在读博士一枚

展开

专栏收录文章