Swin学习笔记

最新推荐文章于 2024-12-29 00:11:27 发布

原创

最新推荐文章于 2024-12-29 00:11:27 发布 · 672 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python

# 从头开始读代码，学习论文中描述的点是如何用代码实现的。

Swin Transformer训练设置：

1. Regular ImageNet-1K training

optimizer: AdamW for 300 epochs

from torch import optim as optim

optimizer = optim.AdamW(parameters, eps=config.TRAIN.OPTIMIZER.EPS, betas=config.TRAIN.OPTIMIZER.BETAS, lr=config.TRAIN.BASE_LR, weight_decay=config.TRAIN.WEIGHT_DECAY)

cosine decay learning rate scheduler and 20 epochs of linear warm-up.

A batch size of 1024, an initial learning rate of 0.001, and a weight decay of 0.05 are used.

2. Pretraining on ImageNet-22K and fine-tuning on ImageNet-1K.

消融实验因素：

1. 相对位置偏差（B）

\[{\rm{Attention}}(Q,K,V) = {\rm{SoftMax}}(\frac{ {Q{K^T}}}{ {\sqrt { {d_k}} }} + B)V\]

2. shifted windows

下采样结构（downsampling在前三个阶段的最后为PatchMerging，最后一个阶段为None）

（类似于YOLO中的focus结构，下图为YOLO中的结构）

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小机灵鬼~

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

YOLOv5升级：Swin-Transformer改进小目标检测多任务让计算机视觉策马奔腾

JjtlReact的博客

09-18

951

近年来，深度学习在计算机视觉领域取得了巨大的成功。为了进一步提高小目标检测的性能，我们将探讨一种新的方法，即将Swin-Transformer应用于YOLOv5，并添加一个专门用于小目标检测的头部模块。具体来说，我们将YOLOv5的骨干网络替换为Swin-Transformer，这样就可以利用Swin-Transformer的自注意力机制来获取更大范围的上下文信息。综上所述，我们通过将Swin-Transformer引入到YOLOv5中，并添加一个专门处理小目标的头部模块，成功改进了小目标检测的性能。

课程六学习笔记：Swin Transformer-1

Wangzx的博客

12-07

250

课程六学习笔记：Swin Transformer-11. Vision Transformer回顾2. Swin Transformer3. 实践：Swin transformer 1. Vision Transformer回顾即使添加了Class-Token，实际上也保持着相同的Patch大小。而对于一张图而言，做分类的话，Patch大一点，可以捕捉到很多的信息；但是做目标检测等其他任务而言，我们需要更小的粒度（调节Patch的大小），Patch很小，可能会带来计算量的问题；Patch正常可能会不能

参与评论您还未登录，请先登录后发表或查看评论

Swin Transformer 论文精读，并解析其模型结构

Flying Bulldog 的博客

08-02

5406

计算机视觉的建模从AlexNet在ImageNet分类挑战的良好表现开始，然后到目标检测的SSD、RCNN、YOLO等模型，一直由CNN主导。直到NLP领域中Transformer的崛起，并经ViT应用到视觉领域后，我们感受到了Transformer全局建模的强大之处。如摘要所述，图像喂入Transformer的计算复杂度远远高于语言的输入，故SwinTransformer诞生了，接下来通过精读此论文揭晓Swin的创新思想。一、摘要，以及图像中像素相对于文本中单词的。hifted二、结论。...

基于Swin-Transformer改进 YOLOv7电力杆塔识别系统

shansjqun的博客

11-01

499

基于Swin-Transformer改进 YOLOv7电力杆塔识别系统

Swin-VoxelMorph

u013119129的博客

11-28

886

Swin Unet Registration

一点就分享系列（理解篇5）补更必看：SwintransformerV2.0版本的改进以及使用理解(上篇)

啥都会一点的小程的博客

03-28

1万+

一点就分享系列（理解篇4） SwintransformerV2的学习使用理解分享之前在V5的gi中更新了swintransformerV2的代码，发现训练起来一堆问题（主要还是堆叠起来难以训练），于是今天抽时间再研究一下，顺便补一补博客的更新，所以废话不多说，关于 SwinV1的讲解网上太多了，写的都很好，我就不去解析了。今天的重点是一些思考和记录！ SwintransformerV2的学习理解感悟分享一点就分享系列（理解篇4） SwintransformerV2的学习使用理解分享一、Swin Trans

深度学习（11）---Swin Transformer详解

m0_62881487的博客

09-01

1229

(2) Swin-Transformer使用窗口多头自注意力，将特征图划成多个不相交的区域，然后在每个窗口里进行自注意力计算，只要窗口大小固定，自注意力的计算复杂度也是固定的，那么总的计算复杂度就是图像尺寸的线性倍数，而不是Vit对整个特征图进行全局自注意力计算，这样就减少了计算量，但是也隔绝了不同窗口之间的信息交流，随之作者提出后文的移动窗口自注意力计算（Shifted Windows Multi-Head Self-Attention(SW-MSA)）。W-MSA是基于窗口的注意力计算。

第6周学习笔记：Vision Transformer & Swin Transformer学习

usdkey的博客

08-19

679

该模型将Transformer结构直接应用到图像上，即将一张图像分割成多个patches，这些patches看作是NLP的tokens (words)，然后对每个patches做一系列linear embedding操作之后作为Transformer的input。

SwinIR: Image Restoration Using Swin Transformer 个人学习笔记

zhouaho2010的博客

02-22

870

https://github.com/JingyunLiang/SwinIR 摘要图像恢复是一个长期存在的低水平视觉问题，目的是从低质量图像（例如缩小、噪声和压缩图像）中恢复高质量的图像。虽然最先进的图像恢复方法是基于卷积神经网络，但很少有人尝试用Transformers在高级视觉任务中表现出令人印象深刻的性能。本文提出了一种基于Swin Transformers的图像恢复强基线模型SwinIR。SwinIR由浅层特征提取、深度特征提取和高质量的图像重建三部分组成。特别地，深度特征提取模块由几个

SwinNet: Swin Transformer Drives Edge-Aware RGB-D and RGB-T Salient Object Detection

qq_50988206的博客

01-10

2290

卷积神经网络 (CNN) 擅长提取某些感受野内的上下文特征，而Transformers可以对全局远程依赖特征进行建模。通过吸收变压器的优势和CNN的优点，Swin Transformer具有较强的特征表示能力。在此基础上，我们提出了一种用于 RGB-D 和 RGB-T 显着目标检测的跨模态融合模型 SwinNet。由 Swin Transformer 驱动以提取分层特征，通过注意力机制增强来弥合两种模态之间的差距，并以边缘信息引导以锐化显着对象的轮廓。

yolov5_transformer:Yolov5带变压器

03-19

“＃yolov5_transformer”

SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient object detection

m0_58702532的博客

07-11

3525

卷积神经网络 (CNN) 擅长在某些感受野内提取上下文特征，而Transformer可以对全局远程依赖特征进行建模。Swin Transformer ，吸收了 CNN 的局部优势和 Transformer 的远程依赖优点。在以上基础上，作者提出了一种用于 RGB-D 和 RGB-T 显著目标检测的跨模态融合模型 SwinNet。它是由Swin Transformer提取分层特性,使用通道注意力和空间注意力推动以弥合两种模态之间的差距，并由边缘信息引导以锐化显着对象的轮廓。具体而言，双流S...

高光谱图像分类，使用GAN和Swin-Transformer改进

crasher123的博客

05-29

1198

近年来，基于生成对抗网络（GAN）的高光谱图像（HSI）分类取得了很大进展。然而，一些研究指出现有的基于GAN的HSI分类方法受到不平衡训练数据问题的严重影响。生成器只能在数据空间的一个狭窄范围内生成样本，这严重阻碍了基于GAN的HSI分类方法的发展。AdapDrop通过自适应形状生成Drop掩码，而不是固定尺寸的区域，它缓解了DropBlock在处理具有各种形状的地面对象时的限制。在三个HSI数据集上的实验结果表明，我们提出的ADGAN相对于现有的基于GAN的方法取得了更优秀的分类性能。

《Swin-Unet: 类Unet的纯Transformer架构用于医学图像分割》学习笔记