Swin Transformer——披着CNN外皮的transformer,解决多尺度序列长问题

SwinTransformer通过引入ShiftedWindow操作和层级设计,有效应对图像领域Transformer的多尺度和计算量问题,表现出色的性能,成为计算机视觉领域的主流backbone。它在各类任务如ImageNet分类、目标检测和语义分割中超越SOTA,展示了Transformer架构的潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

image.png

题目:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》作为2021 ICCV最佳论文,屠榜了各大CV任务,性能优于DeiT、ViT和EfficientNet等主干网络,已经替代经典的CNN架构,成为了计算机视觉领域通用的backbone

1.概述

Transformer应用到图像领域主要有两大挑战:

  • 视觉实体变化大,在不同场景下视觉Transformer性能未必很好——多尺度问题
  • 图像分辨率高,像素点多,Transformer基于全局自注意力的计算导致计算量较大——tokens序列长度问题

针对上述两个问题,我们提出了一种包含Shifted Window操作,具有层级设计Swin Transformer
:::warning
Shifted Window操作<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值