自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers

视觉转换器(ViTs)建立在将图像块视为“视觉令牌”并学习块到块注意力的假设之上。基于补丁嵌入的分词器相对于其对应物文本分词器具有语义鸿沟。补丁到补丁的注意力受到二次复杂性问题的影响,这也使得解释习得的ViT变得不容易。为了解决这些问题,在ViT,本文提出了学习补丁到集群的注意力(PaCa)在ViT。我们的PaCa-ViT中的聚类从补丁开始,而键和值直接基于聚类(具有预定义的少量聚类)。这些集群是端到端学习的,从而产生更好的标记器,并诱导联合的关注集群和关注集群,以获得更好的可解释的模型。将

2024-12-03 14:23:00 671

原创 Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement

作者单位:1人机混合增强智能国家重点实验室,视觉信息及应用国家工程研究中心,人工智能与机器人研究所,西安交通大学,中国2浙江大学电气工程学院,中国杭州代码:https://github.com/xiuqhou/Salience-DETR类似DETR的方法以端到端的方式显著提高了检测性能。它们的主流两阶段框架执行密集的自注意,并选择一小部分查询进行稀疏的交叉注意,这被证明是有效的,以提高性能,但也引入了沉重的计算负担和高度依赖于稳定的查询选择。本文证明,由于两阶段初始化中所选查询

2024-11-25 10:50:59 667

原创 TOKEN PRUNING USING A LIGHTWEIGHT BACKGROUND AWAREVISION TRANSFORMER

使用轻量级背景感知视觉Transformer的令牌修剪作者单位:Toronto, Canada高运行时内存和高延迟对Vision Transformer训练和推理造成了重大限制,尤其是在边缘设备上。令牌修剪基于每个令牌的重要性标准来减少输入到ViT的令牌的数量。提出了一个背景感知视觉转换器(Background Aware Vision Transformer,BAViT)模型,这是DETR/YOLOS等对象检测模型的预处理模块,旨在通过使用一种新颖的方法来识别图像中的背景标记,减

2024-11-24 23:32:05 991

原创 Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks

单位:北京国家信息科学技术研究中心,清华大学自动化系本文提出了一个基于视觉数据空间稀疏性的模型加速算法。观察到,视觉Transformer的最终预测仅基于信息量最大的区域的子集,这对于准确的图像识别是足够的。在此基础上,提出了一种动态令牌稀疏化框架,根据输入动态地逐步删除冗余令牌,以加速视觉变换器。具体而言,设计了一个轻量级预测模块,用于在给定当前特征的情况下估计每个标记的重要性。该模块被添加到不同的层中,以分层地修剪冗余令牌。

2024-11-23 21:42:54 878

原创 Brain-Inspired Stepwise Patch Merging for Vision Transformers

1中国科学院自动化研究所脑启发认知智能实验室 2长期人工智能研究中心 3中国科学院脑认知与脑启发智能技术重点实验室 4中国科学院大学未来技术学院 5中国科学院大学人工智能学院分层架构已经成为视觉转换器(ViTs)的主流设计范式,补丁合并是将柱状架构转换为分层架构的关键组件。从大脑整合全局和局部信息以实现全面视觉理解的能力中汲取灵感,本文提出了一种名为分步补丁合并(SPM)的新技术,该技术增强了随后的注意力机制更好地“看”的能力。

2024-11-23 16:19:36 813

原创 Revisiting Token Pruning for Object Detection and Instance Segmentation

作者单位:苏黎世大学视觉变换器(ViTs)在计算机视觉中表现出令人印象深刻的性能,但其高计算成本,令牌数量的二次方,限制了其在计算受限应用中的采用。然而,这种大量的令牌可能不是必要的,因为并非所有令牌都同样重要。在本文中,研究标记修剪,以加速推理的对象检测和实例分割,扩展以前的作品从图像分类。通过大量的实验,为密集任务提供了四个见解:(i)标记不应该被完全修剪和丢弃,而是保留在特征图中以供以后使用。(ii)重新激活先前修剪的令牌可以进一步增强模型性能。(iii)基于图像的动态修剪率优于固定修剪率。

2024-11-08 16:02:40 1062

原创 Rethinking Local Perception in Lightweight Vision Transformer

1中国清华大学 2中国科学院自动化研究所MAIS & CRIPAC 3中国科学院大学人工智能学院中国视觉转换器(ViT)已被证明在各种视觉任务中是有效的。但是,将它们的大小调整为移动友好的大小会导致性能显著下降。因此,开发轻量化的视觉转换器成为一个重要的研究领域。本文介绍了CloFormer,一种利用上下文感知局部增强的轻量级视觉Transformer。CloFormer分析了普通卷积算子中常用的全局共享权值与注意中出现的特定于标记的上下文感知权值之间的关系,并提出了一种高效、直接的局部信息捕获模块。

2024-11-06 11:32:26 1093

原创 POTTER: Pooling Attention Transformer for Efficient Human Mesh Recovery

POTTER:集中注意力Transformer实现高效的人体网格恢复作者单位:1中央佛罗里达大学计算机视觉研究中心;2北卡罗来纳州州立大学;3 OPPO西雅图研究中心;4韦斯特莱克大学代码:https://zczcwh.github.io/potter_page/.Transformer架构在从单目图像恢复人体网格(HMR)方面实现了SOTA性能。然而,性能的提高是以大量的内存和计算开销为代价的。为了满足实际应用的需要,需要一种轻量级、高效的模型来重建精确的人体网格。在本文中,

2024-11-04 11:09:30 771

原创 PVT v2:Improved Baselines with Pyramid Vision Transformer

作者单位:1上海人工智能实验室,2南京大学,3香港大学,4南京理工大学,5IIAI, 6商汤科技Transformer最近在计算机视觉方面取得了令人鼓舞的进展。在这项工作中,作者通过添加三种设计来改进原始Pyramid Vision Transformer(PVT v1),从而提出了新的基线,包括(1)线性复杂度注意力层,(2)重叠补丁嵌入,和(3)卷积前馈网络。通过这些修改,PVT v2将PVT v1的计算复杂度降低到线性,并在分类,检测和分割等基本视觉任务上实现了显着改进。

2024-11-03 17:07:24 767

原创 PVT1-Pyramid Vision Transformer: A Versatile Backbone for Dense Predictionwithout Convolutions

作者单位:1南京大学,2香港大学,3南京理工大学,4 IIAI ,5商汤科技虽然卷积神经网络(CNN)在计算机视觉领域取得了巨大的成功,但这项工作研究了一种更简单,无卷积的骨干网络,可用于许多密集的预测任务。不同于最近提出的视觉Transformer(ViT),这是专门为图像分类设计的,我们引入了金字塔视觉Transformer(PVT),它克服了移植Transformer到各种密集预测任务的困难。与现有技术相比,PVT具有几个优点。

2024-11-03 15:45:12 1140

原创 用弹性响应蒸馏克服增量目标检测中的灾难性遗忘问题

在论文中,作者精心设计了目标检测领域中一种基于响应的增量范式,有效地缓解了灾难性遗忘问题。首先,从分类头和回归头中学习响应,并特别在回归响应中引入增量定位蒸馏。其次,设计了弹性选择策略,以在不同的头上提供合适的响应,大量的实验验证了该方法的有效性。最后,详细分析讨论了作者提出方法的通用性 以及 增量检测任务中基于响应和基于特征的蒸馏之间的本质区别,这为该领域的进一步探索提供了见解。

2024-10-20 10:09:05 953 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除