Swin-Tranformer

 一、整体概述

SwinTranformer在多项任务中表现很好,SwinTranformer进行了分层处理

下采样的同时特征图翻倍。 

 patch embedding可以通过更改卷积大小,实现不同大小的输入。

 window_partition就是对图片进行reshape操作,将特征图按照窗口大小划分

 (3,64,3,49,32)qkv三个矩阵,64个窗口,每个窗口由7*7=49个token组成,每一个token由3头注意力机制来搞定的,每一个头解决32维的向量

attention 中49*49是窗口内部49个特征值如何进行重组

 

二、滑动窗口

为什么要做滑动窗口,因为要考虑各窗口内部的关系

 窗口移动,计算量没有增加。mask机制得到固定希望的位置

 W-MSA和SW-MSA得到的结果与输入的特征图大小相同,SW-MSA相较W-MSA多了偏移和mask的步骤

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值