
Transformer
文章平均质量分 96
暖风️
这个作者很懒,什么都没留下…
展开
-
DeiT:Training data-efficient image transformers & distillation through attention
这篇文章主要是通过一些训练策略和来提升模型的训练速度和性能效果。原文链接:Training data-efficient image transformers & distillation through attention源码地址:https://github.com/facebookresearch/deit写的好的文章:Transformer学习(四)—DeiT知识蒸馏可以简单看下这篇介绍:知识蒸馏(Knowledge Distillation) 经典之作,论文笔记虽然ViT在分类任务中有着非常原创 2022-07-03 23:29:23 · 3487 阅读 · 0 评论 -
LV-ViT:All Tokens Matter: Token Labeling for Training Better Vision Transformers
这篇文章是对ViT训练的一种增强方法LV-ViT。以往的Vision Transformer 分类任务都只是应用class token聚集全局信息,用于最后的分类。作者提出将patch token也用作loss的计算。相当于将一张图像的分类问题,转换成了每个token的识别问题,每个token的分类标签是由机器生成的监督(supervision)。原文链接:All Tokens Matter: Token Labeling for Training Better Vision Transformers..原创 2022-07-01 21:17:29 · 2816 阅读 · 0 评论 -
DAT:Vision Transformer with Deformable Attention
这篇文章是相对于Swin-Transformer和PVT进行改进,加入了可变形机制,同时控制网络不增加太多的计算量,作者认为,缩小q对应的k的范围,能够减少无关信息的干扰,增强信息的捕捉,于是引入了到注意力模块中,提出了一种新的注意力模块:可变形多头注意力模块——对k和v进行DCN偏移后再计算注意力。将这个模块替换到Swin-Transformer的第三四阶段的滑动窗口注意力部分,获得了较好的实验性能。原文链接:Vision Transformer with Deformable Attention源码地原创 2022-06-30 11:48:16 · 1830 阅读 · 0 评论 -
SuperViT:Super Vision Transformer
这篇文章主要针对减少Vision Transformer的计算消耗,提出了一种新的方法。在ViT中我们已知Transformer的token数量与patch大小成反比,这表示patch大小越小的模型计算成本越高,而patch越大模型效果的损失就越大。这正和我们的目的相背离。SuperViT的作者从两个方面来提升性能:`多尺度的patch分割`和`多种保留率`。尽量的减少计算量加速计算并维持较好的模型性能。该种方法用在图像分类上基本没什么问题,但是在超分领域,像素的丢弃还是会较严重的影响模型的性能。.....原创 2022-06-28 19:10:24 · 1429 阅读 · 0 评论 -
Swin-Ttransformer Object Detection 环境配置及训练
简单记录下,安装、跑通、GPU训练swin-t源码的步骤。原创 2022-05-30 22:22:22 · 2231 阅读 · 10 评论 -
超分算法HIPA: Hierarchical Patch Transformer for Single Image Super Resolution
HIPA: Hierarchical Patch Transformer for Single Image Super Resolution[2022]Abstract1 Introduction2 Method3 Experiments4 ConclusionAbstract基于变压器的架构开始出现在单图像超分辨率(SISR)中,并取得了良好的性能。大多数现有的视觉变换器将图像分割成相同数量的固定大小的面片,这对于恢复纹理丰富程度不同的面片可能不是最佳选择。本文介绍了一种新的变压器结构HIPA,它使.原创 2022-05-19 11:35:05 · 2010 阅读 · 2 评论 -
超分算法ESRT:Transformer for Single Image Super-Resolution
这篇文章网络结构ESRT( Efficient Super-Resolution Transformer)还是蛮复杂的,是一个CNN和Transformer结合的结构。文章提出了一个高效SRTransformer结构,是一个轻量级的Transformer。作者考虑到图像超分中一张图像内相似的细节部分可以作为参考补充,(类似于基于参考图像Ref的超分),于是引入了Transformer,可以在图像中建模一种长期依赖关系。而ViT这些方法计算量太大,太占内存,于是提出了这个轻量版的Transformer结构(.原创 2022-05-18 15:45:31 · 13585 阅读 · 6 评论 -
超分算法IPT:Pre-Trained Image Processing Transformer
本文是一个基于transformer的预训练通用模型,针对低级视觉任务还没有人提出预训练的模型,所以作者使用了超大数据集训练出了image processing transformer (IPT)。可以微调后应用于图像重建、去噪、去雨等等。具体结构作者使用了一个多头多尾共享躯干的结构。应对不同的任务,有针对性不同的头部和尾部,分别使用不同的处理方式(三个卷积层)。中间是一个transformer编解码器结构。将头部输出的特征图像unfold成”词向量“形式和位置嵌入相加后输入encoder,encoder.原创 2022-05-17 19:08:59 · 5317 阅读 · 6 评论 -
超分算法 SwinIR: Image Restoration Using Swin Transformer
这篇文章结构比较简单,如果看过Swin-Transformer的话就没什么难点了。作者引入Swin-T结构应用于低级视觉任务,包括图像超分辨率重建、图像去噪、图像压缩伪影去除。网络由一个浅层特征提取模块、深层特征提取模块、重建模块构成。重建模块对不同的任务使用不同的结构。浅层特征提取就是一个3×3的卷积层。深层特征提取是k个RSTB块和一个卷积层构成。RSTB(Res-SwinIR: Image Restoration Using Swin Transformer[ICCV 2021]Abstract1.原创 2022-05-17 10:38:09 · 10345 阅读 · 0 评论 -
Swin Transformer详解: Hierarchical Vision Transformer using Shifted Windows
这篇文章使用和CNN类似的分层提取特征,来达到扩大感受野的效果。是一个特征提取的主干网络,backbone。分层特征提取,不断减小“feature map”的大小(token的数量)。关键部分是Shift window移动窗口(W-MSA、SW-MSA)ViT中使用不重叠的窗口,但是忽略了相邻窗口间的相关性,而Swin-T使用shfit windown移动(M/2)来弥补。但这样会引入很大的计算量,那么作者又提出了cyclic-shift 循环位移,保证计算量不变,但是这样的移动会使得相邻窗口间不相关的部.原创 2022-05-16 21:25:00 · 10431 阅读 · 0 评论 -
超分算法TTSR:Learning Texture Transformer Network for Image Super-Resolution 基于参考图像Ref的超分辨率重建
这篇文章TTSR应该是第一次将transformer引入到超分任务中,且是基于参考图像的超分重建RefSR,文章发表在CVPR2020。基于参考图像的超分不同于单图像超分,更注重于图像细节的还原,通过迁移参考图像中的相似纹理来还原HR图像。基于参考图像的超分文章并不多,这种方法的局限性比较大。TTSR是基于SRNTT这篇文章进行了改进,加入注意力机制,能选择更相似的纹理来完成SR图像恢复。原文链接:TTSR:Learning Texture Transformer Network for Image S.原创 2022-05-07 16:43:06 · 4364 阅读 · 3 评论