
Transformer变形
文章平均质量分 94
托比-马奎尔
只是一个学习小白,分享自己学习的知识。
展开
-
Conformer:用于语音识别的卷积增强Transformer
Transformer模型善于捕捉基于内容的全局交互,而CNN则能有效地利用局部特征。在这项工作中,通过研究如何将卷积神经网络和Transformer结合起来,以参数有效的方式对音频序列的局部和全局依赖关系进行建模,从而达到两全面性。为此,提出了用于语音识别的卷积增强Transformer,命名为Conformer。Conformer显著优于之前的Transformer和基于CNN的模型,达到了最先进的精度。原创 2024-08-14 17:59:13 · 2035 阅读 · 0 评论 -
稀疏注意力:时间序列预测的局部性和Transformer的存储瓶颈
定义了一个时间序列预测的问题。在这个问题中,我们有一个包含N个相关单变量时间序列的集合,每个时间序列记为,表示从时间1到时间 的观测值。目标是预测这些时间序列未来的个时间步的值,即。此外,假设有一个与时间相关的协变量集合,其维度为d,这些协变量可能包括诸如星期几、一天中的小时等已知信息。我们需要建模条件分布,其中是所有时间序列共享的可学习参数。接着,问题被简化为学习一个一步预测模型,即,其中表示模型的可学习参数。原创 2024-08-14 16:57:43 · 1176 阅读 · 0 评论 -
具备长短距离注意力模块的Lite Transformer
Transformer在自然语言处理(例如,机器翻译、问答)中已经变得无处不在;然而,它需要大量的计算才能实现高性能,这使得它不适合受硬件资源和电池严格限制的移动应用程序。在本文中,提出了一个高效的移动NLP架构,Lite Transformer,以方便在边缘设备上部署移动NLP应用程序。关键的原语是长短距离注意(LSRA),其中一组头专门进行局部上下文建模(通过卷积),而另一组头专门进行远距离关系建模(通过注意)。原创 2024-08-13 21:44:29 · 1547 阅读 · 0 评论 -
SepViT: Separable(分离式) Vision Transformer
SepViT遵循广泛使用的分层架构(Wang et al . 2021c;Dong et al . 2021)和基于窗口的自我注意(Liu et al . 2021)。此外,SepViT还采用了Chu等人的条件位置编码(CPE) (chu et al. 2021 b, a)。对于每个阶段,都有一个重叠的补丁合并层用于特征图下采样,然后是一系列SepViT块。在步长为4或步长为2的情况下,空间分辨率将逐步降低32倍,通道尺寸将逐级增加一倍。原创 2024-07-10 17:54:42 · 997 阅读 · 0 评论 -
5.14.10 使用 Swin Transformers 集合对组织病理学图像中的乳腺癌进行多类分类
乳腺癌 的非侵入性诊断程序涉及体检和成像技术,例如乳房 X 光检查、超声检查和磁共振成像 [3,4]。然而,体外检查可能无法及早发现它,并且影像学检查对于更全面地评估癌变区域和识别癌症亚型的敏感性较低[5,6]。通过乳腺活检进行的组织病理学成像,即使是微创的,也可以准确识别癌症亚型并精确定位病变[7]。CNN 表现出固有的归纳偏差,并且会随着图像中感兴趣对象的平移、旋转和位置而变化。因此,在训练 CNN 模型时通常会应用图像增强,尽管数据增强可能无法在训练集中提供预期的变化。原创 2024-05-21 20:35:38 · 1137 阅读 · 5 评论 -
5.14.6 TransMed:Transformer推进多模态医学图像分类
TransMed 结合了 CNN 和 Transformer 的优点,可以有效地提取图像的低级特征并建立模态之间的远程依赖关系。我们在两个数据集(腮腺肿瘤分类和膝盖损伤分类)上评估了我们的模型。将 Transformer 应用于计算机视觉任务的方法。与文本相比,图像涉及更大的尺寸、噪声和冗余模态。人们提出了大量基于 Transformer 的方法,例如用于目标检测的 DETR [2]、用于语义分割的 SETR [3]、用于图像分类的 ViT [4] 和 DeiT [5]。原创 2024-05-21 14:12:04 · 4441 阅读 · 3 评论 -
5.14.3 UNETR:用于 3D 医学图像分割的 Transformers
具有收缩和扩展路径的全卷积神经网络 (FCNN) 在大多数医学图像分割应用中表现出了突出的作用。在 FCNN 中,编码器通过学习全局和局部特征以及上下文表示来发挥不可或缺的作用,这些特征和上下文表示可用于解码器的语义输出预测。在FCNN中,收缩路径通常用于捕获图像的上下文信息,并逐步减少空间维度;而扩展路径则用于恢复空间维度,使输出图像的尺寸与输入图像相近,并提供更精细的分割结果。FCNN中卷积层的局部性限制了学习远程空间远程依赖性的能力。原创 2024-05-20 19:48:57 · 2663 阅读 · 0 评论 -
5.10.4 Vision Transformer的条件位置编码(CPE)
绝对位置编码方案可能会破坏平移等价性,因为它为每个标记(或每个图像块)添加了唯一的位置编码。相对位置编码不仅会带来额外的计算成本,而且还需要修改标准 Transformer 的实现。在这项工作中,我们提出了一种新颖的位置编码(PE)方案,将位置信息合并到 Transformer 中。所提出的 PE 是动态生成的,并以输入标记的局部邻域为条件。因此,我们的位置编码可以随着输入大小而变化,并尝试保持平移等价性。原创 2024-05-12 11:28:25 · 2173 阅读 · 0 评论 -
5.10.3 使用 Transformer 进行端到端对象检测(DETR)
对象检测的目标是预测每个感兴趣对象的一组边界框和类别标签。在计算机图形学和图像处理中,锚点(Anchor Point)是一个特定的位置,通常用于描述图像中的特征点或区域。它可以是单个像素点,也可以是一个更复杂的区域如矩形或椭圆。锚点的主要作用是为图像处理和计算机视觉任务提供一个参考点,以便更准确地描述和定位图像中的特征。在目标检测任务中,锚点用于预测目标物体的位置和大小;在图像匹配任务中,它帮助找到图像中的相似区域。原创 2024-05-11 17:15:06 · 1613 阅读 · 1 评论 -
5.10.1 Pre-Trained Image Processing Transformer
图像处理是更全局的图像分析或计算机视觉系统的低级部分的组成部分之一。图像处理的结果很大程度上影响后续高层部分对图像数据的识别和理解。近年来,深度学习已广泛应用于解决低级视觉任务,例如图像超分辨率、修复、去雨和着色。由于许多图像处理任务都是相关的,因此很自然地期望在一个数据集上预训练的模型可以对另一个数据集有所帮助。在计算机视觉中,deraining是指图像去雨的过程。具体来说,deraining技术旨在从被雨水影响的图像中恢复出清晰、无雨的图像内容。原创 2024-05-11 10:56:56 · 983 阅读 · 0 评论 -
邻域注意力Transformer
邻域注意力(NA),这是第一个高效且可扩展的视觉滑动窗口注意力机制,NA是一种逐像素操作,将自注意力(SA)定位到最近的相邻像素,因此与SA的二次复杂度相比,具有线性时间和空间复杂度。与Swin Transformer的窗口自注意力不同,滑动窗口模式允许NA的感受野增长,而无需额外的像素移位,并保留平移等变性。Neighborhood Attention Transformer可以自适应地将接收域定位到每个token周围的一个邻域,在不需要额外操作的情况下引入局部归纳偏差;原创 2024-05-10 19:11:14 · 1424 阅读 · 0 评论 -
5.08.7 CMT: Convolutional Neural Networks Meet Vision Transformers
将基于 Transformer 的架构应用于视觉领域,并在图像分类、目标检测和语义分割等各种任务中取得了有希望的结果。Vision Transformer (ViT)是第一个用纯 Transformer 替代传统 CNN 主干的工作。输入图像(224×224×3)首先被分割成196个不重叠的patch(每个patch的固定大小为16×16×3),这类似于NLP中的单词token。然后将这些补丁送入堆叠的标准转换器块中,以对全局关系进行建模并提取用于分类的特征。原创 2024-05-10 17:58:58 · 1023 阅读 · 0 评论 -
4.26.7具有超级令牌采样功能的 Vision Transformer
Transformer主导着自然语言处理领域,并表现出通过自注意力捕获长程依赖关系的出色能力。自注意力的计算复杂度与标记数量成二次方,导致高分辨率视觉任务(例如物体检测和分割)的计算成本巨大。ViT倾向于捕获具有高冗余的浅层局部特征。如图(b)所示,给定一个锚标记,浅层全局注意力集中在一些相邻的标记上(用红色填充),而忽略了大多数距离较远的标记。所有令牌之间的全局比较导致在捕获此类局部相关性时产生巨大的不必要的计算成本。原创 2024-05-08 21:30:43 · 1094 阅读 · 0 评论 -
4.26.2超越注意力令牌:融入令牌的重要性和多样性,实现高效的Vision Transformer
Transformer成为自然语言处理和计算机视觉社区中最流行的架构。Vision Transformer在不同的视觉任务中实现了卓越的性能并超越了标准CNN,例如图像分类、语义分割和对象检测。Transformer最显著的特点是它能够通过自注意力机制有效捕获输入图像中的块之间的长程依赖关系。然而,令牌之间的二次交互显著降低了计算效率。我们的方法关注对图像预测贡献更大的区域,而不是无信息的背景。例如,动物的五个感觉器官被保留下来。它表明我们的方法有效地解耦了注意力和不注意力的标记。原创 2024-04-27 20:43:18 · 1110 阅读 · 2 评论 -
4.18.2 EfficientViT:具有级联组注意力的内存高效Vision Transformer
假设输入特征图的通道数为C,组数为G,每组的通道数为C/G,那么组卷积的操作可以表示为。原创 2024-04-25 22:15:22 · 998 阅读 · 1 评论 -
RadioTransformer:用于视觉注意力引导疾病分类的级联全局焦点Transformer
医学图像解释和相关诊断很大程度上依赖于领域专家研究图像的方式。放射科医生在多年的不同领域的医学图像培训中磨练了他们的图像搜索技能。当前的诊断和预后模型仅限于图像内容语义,例如疾病位置、注释和严重程度,并没有考虑到这些丰富的辅助领域知识。他们主要通过手工制作的描述符或深度架构来学习疾病的纹理和空间特征。图像内疾病模式的空间依赖性通常由专家读者隐式解释,仅通过图像特征表示学习可能无法充分捕获。放射科医生在胸部X光片上的视觉搜索模式首先用于训练全局焦点教师网络, 称为人类视觉注意力训练HVAT。原创 2024-04-25 21:19:58 · 1347 阅读 · 0 评论 -
数字乳腺癌组织病理学图像分类的Vision Transformer及其变体
Vision Transformer作为一种基于自注意力机制的高效图像分类工具被提出。近年来出现了基于Poolingbased Vision Transformer (PiT)、卷积视觉变压器(CvT)、CrossFormer、CrossViT、NesT、MaxViT和分离式视觉变压器(SepViT)等新模型。它们被用于BreakHis和IDC数据集上的图像分类,用于数字乳腺癌组织病理学。在BreakHis上训练之后,他们在IDC上进行微调,以测试他们的泛化能力。原创 2024-04-16 14:10:52 · 1186 阅读 · 0 评论 -
具有可变形注意力的Vision Transformer
Vision Transformer堆叠多个Transformer块来处理不重叠的图像(即视觉标记)序列,从而形成用于图像分类的无卷积模型。与CNN模型相比,Transformer模型具有更大的感受野,并且擅长对远程依赖关系进行建模,事实证明在大量训练数据和模型参数的情况下可以实现优异的性能。视觉识别中的过多注意力是一把双刃剑,每个查询补丁需要参与的键数量过多会导致计算成本高、收敛速度慢,并且增加过度拟合的风险。原创 2024-04-10 17:35:46 · 1172 阅读 · 0 评论