
transformer
文章平均质量分 93
transformer
一只波加猹~
i do
展开
-
微表情检测(四)----SL-Swin
结果表明,我们的方法在MEGC 2022和MEGC 2021的定位任务上具有很强的性能,表明我们的方法在准确识别小型数据集中的表情方面具有潜力,并突显了我们的方法在大规模标记的表情数据集不容易获得的情况下的实用性。详细检查CAS(ME)3数据集的结果,我们的方法在召回率上更高,而精确率较低。与仅使用Swin Transformer背景的小型版本而没有SPT和LSA的方法相比,表中标记为Swin-T,我们的方法(SL-Swin-T)在所有指标上都表现更好,这表明SPT和LSA的应用提高了模型的泛化能力。原创 2023-12-12 22:30:40 · 2212 阅读 · 3 评论 -
深度学习之图像分类(十五)DINAT: Dilated Neighborhood Attention Transformer理论精简摘要(二)
局部注意力机制:例如滑动窗口Neighborhood Attention(NA)或Swin Transformer的Shifted Window Self Attention。优点:尽管在降低自注意力二次复杂性方面表现出色,缺点:但是局部注意力削弱了自注意力的两个最理想的属性:长程相互依赖建模和全局感受野。在本文中,我们引入了(DiNA),这是对NA的一种自然、灵活且高效的扩展,可以在不增加额外成本的情况下捕获更多的全局上下文并指数级地扩展感受野。原创 2023-11-28 14:50:50 · 1995 阅读 · 0 评论 -
深度学习之图像分类(十五)DINAT: Dilated Neighborhood Attention Transformer详解(一)
Transformers 迅速成为跨模态、领域和任务中应用最广泛的深度学习架构之一。在视觉领域,除了对普通Transformer的持续努力外,分层Transformer也因其性能和易于集成到现有框架中而受到重视。这些模型通常采用局部注意力机制,例如滑动窗口Neighborhood Attention(NA)或Swin Transformer的Shifted Window Self Attention。原创 2023-11-27 22:40:39 · 2668 阅读 · 0 评论 -
深度学习之图像分类(十四)CAT: Cross Attention in Vision Transformer详解
由于Transformer在自然语言处理(NLP)中得到了广泛应用,人们已经意识到Transformer在计算机视觉(CV)中的潜力,并且已经激发了许多新的方法。然而,在图像进行标记后,用图像块替换单词标记所需的计算量(例如,ViT)非常庞大,这成为模型训练和推理的瓶颈。在本文中,我们提出了一种新的Transformer中的注意机制,称为交叉注意力(Cross Attention),该机制在图像块内部而不是整个图像中进行交替注意以捕捉局部信息并在从单通道特征图中分割的图像块之间应用注意力以捕捉全局信息。原创 2023-11-25 14:54:34 · 4830 阅读 · 0 评论 -
深度学习之图像分类(十三)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解(三)
这里的高和宽的乘积是patch的个数,56x56个4x4的patch,下采样2x之后维度增加四倍,liner projection只是维度增加2倍,变为28x28x2C,这里的patch数目由56x56变为28x28,patch数目减小,但是patch的尺寸增加由4x4变为8x8,这里的维度C和patch_size的大小是没有关系的,这样之后输出的窗口尺度发生了变化。接下来忽略除以以及softmax的计算量,假设得到Λhw×hw,最后还要乘以V,对应的计算量为 (hw)^2C。原创 2023-11-25 14:37:31 · 1082 阅读 · 0 评论 -
深度学习之图像分类(十三)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解(二)
文章提出一个新的结构叫swin transformer,可以作为计算机视觉的通用骨干。将transformer从语言实体应用到视觉实体中存在挑战:1、视觉实体的尺度变化较大,需要能够融合多尺度信息,但是ViT的stage尺度是固定的,2、图像中的像素是高分辨率的,形成的token往往具有很大的维度,通常计算代价和输入图像的分辨率成平方比,带来巨大的计算代价;原创 2023-11-24 23:57:33 · 1365 阅读 · 0 评论 -
深度学习之图像分类(十三)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解(一)
在这次移位后,一个批处理窗口可能由几个在特征图中不相邻的子窗口组成,因此采用了屏蔽机制,将自注意力计算限制在每个子窗口内。为了在保持非重叠窗口的高效计算的同时引入跨窗口连接,我们提出了一种移动窗口分区方法,该方法在连续的。基于偏移窗口的自注意力在视觉问题上表现出了有效和高效的特性,我们期待进一步研究它在自然语言处理中的应用。移位窗口方案通过将自注意力计算限制在非重叠的局部窗口内,同时允许窗口之间的交叉连接,从而提高了效率。通用骨干(不仅仅在分类识别的任务上有好的结果,在目标检测和语义分割都有好的结果)原创 2023-11-24 23:12:29 · 1444 阅读 · 0 评论 -
深度学习之图像分类(十二)Masked Autoencoders Are Scalable Vision Learners(MAE)详解
本文表明,掩蔽自动编码器(MAE)是一种可扩展的计算机视觉自监督学习器。我们的MAE方法很简单:我们屏蔽输入图像的随机patch,并重建缺失的像素。它基于两个核心设计。首先,我们开发了一种非对称编码器——解码器架构,编码器仅对patch的可见子集(没有掩模标记)进行操作,轻量级解码器从潜在表示和掩模标记重建原始图像。第二,我们发现掩蔽高比例的输入图像,例如75%,产生了重要且有意义的自我监督任务。耦合这两种设计使我们能够高效和有效地训练大型模型:我们加速了训练(3倍或更多)并提高了准确性。原创 2023-10-31 17:20:18 · 5215 阅读 · 1 评论 -
深度学习之图像分类(九)vision Transformer翻译与总结(二)
在大型语料库上进行训练,然后在小的数据集上应用,取得了非常不错的结果。由于的计算效率和可扩展性,随着模型和数据的增长,并未出现饱和现象。受在NLP领域的启发,一部分尝试将类似CNN的架构与Attention相结合(利用卷积神经网络子在softmax层之前所提取到的特征矩阵作为输入,将和CNN结合起来),另一些是用完全的取代CNN的功能。第二种在理论上是非常有效的,但是由于使用了专门的注意力机制,尚未在现代硬件加速器上有效地扩展,所以模型还不是很大。原创 2023-10-09 18:07:07 · 357 阅读 · 1 评论 -
深度学习之图像分类(九)vision Transformer翻译与总结(一)
虽然Transformer架构已经成为自然语言处理任务的事实上的标准,但它在计算机视觉上的应用仍然有限。在视觉方面,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。我们证明这种对cnn的依赖是不必要的,直接应用于图像补丁序列的纯变压器可以很好地完成图像分类任务。原创 2023-10-08 12:05:12 · 2382 阅读 · 1 评论 -
深度学习之自注意力机制(self-attention)(一)Transformer总结
还是以一个词为例,假设一个词生成了一组Q,K,V后,然后Q与K与其他的Q与K计算了内积后生成了权重,权重将v向量重构成了Z向量,没有多头注意力机制,Z向量就是这个词的最后表达,如果是多头注意力机制,实际上就会生成h个Z向量。然而不同的是第一个词的q是不可以考虑后面所有词的q的影响的,单词第二个词的q需要考虑前面第一个词的影响,所有的词要考虑前面的词的影响,但是不可以考虑后面的词影响,这就是mask机制。这个起始符号的嵌入向量通常是预训练的,它会作为Decoder的初始输入,用来表示生成序列的开始。原创 2023-10-07 22:14:01 · 984 阅读 · 1 评论 -
深度学习之自注意力机制(self-attention)(一)Transformer翻译
主要的序列转导模型是基于复杂的循环或卷积神经网络,包括一个编码器和一个解码器。表现最好的模型还通过注意机制连接编码器和解码器。我们提出了一个新的简单的网络架构,Transform,完全基于注意力机制,完全摒弃递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优越,同时更具并行性,并且需要更少的训练时间。我们的模型在WMT 2014英语-德语翻译任务上实现了28.4 BLEU,比现有的最佳结果(包括集合)提高了2个BLEU以上。原创 2023-10-07 21:33:38 · 333 阅读 · 1 评论