
论文阅读
文章平均质量分 93
偶尔记录几篇论文翻译及思考
JAT9321
这个作者很懒,什么都没留下…
展开
-
Efficient RGB-T Tracking via Cross-Modality Distillation
RGB-T跟踪是一种估计RGB-T视频序列的每一帧中任意目标的状态的任务。由于热红外(TIR)传感器的可承受性,RGB-T跟踪引起了越来越多的研究兴趣。如图1 (a)所示,大多数现有的RGB-T跟踪模型首先采用双流结构分别提取多级单峰RGB和TIR特征,然后利用精心设计的多模态特征融合模块来利用多模态数据中的互补信息。最后,他们从融合的特征中推导出目标状态,通常由一个边界框表示。最后,他们从融合的特征中推导出目标状态,通常由一个边界框表示。原创 2023-11-29 16:31:43 · 1632 阅读 · 0 评论 -
Less is More: Focus Attention for Efficient DETR
目标检测是计算机视觉中的一项基本任务,其目的是预测图像中目标的边界框和类别,如图1 (a)所示,在现实应用中具有重要意义。Carion等人提出的DETR使用可学习查询从变压器编码器的输出中探测图像特征,二部图匹配来执行基于集的盒预测。类detr模型取得了显著的进展,并逐渐与基于卷积神经网络的检测器缩小了差距。DETR中的全局关注提高了检测性能,但由于没有明确识别所有标记的冗余计算,造成了计算负担和效率低下。原创 2023-08-04 21:00:53 · 1176 阅读 · 0 评论 -
Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers
虽然视觉变压器(ViTs)最近在各种计算机视觉任务中显示出了良好的结果,但它们的高计算成本限制了其实际应用。以前删除冗余标记的方法已经证明了在性能和计算成本之间的良好权衡。然而,由剪枝策略引起的错误可能会导致显著的信息丢失。我们的定量实验表明,修剪后的令牌对性能的影响应该是明显的。为了解决这个问题,我们提出了一种新的联合令牌修剪和压缩模块(TPS),用于更高效地压缩视觉变压器。首先,TPS采用剪枝的方法来获得保留和剪枝的子集。原创 2023-08-03 16:14:16 · 331 阅读 · 0 评论 -
LGViT : Dynamic Early Exiting for Accelerating Vision
在过去的几年中,视觉变压器(ViTs)由于其强大的性能和通用的结构而成为各种多媒体任务的基本骨干。随着5G无线网络和物人工智能(AIoT)的发展,在资源有限的边缘设备上部署ViTs以实现实时多媒体应用已成为一个有吸引力的前景。然而,vit的高计算复杂度给将其部署在边缘设备上带来了重大挑战。例如,ViT-L/16 [26],一种典型的计算机视觉ViT架构,需要超过180gga的片段进行推理,在NVIDIA Jetson TX2设备上需要56.79毫秒来对224×224分辨率的图像进行分类。原创 2023-08-03 15:38:55 · 384 阅读 · 0 评论 -
Balanced Multimodal Learning via On-the-fly Gradient Modulation
人们通过协同利用多种感官来感知世界:眼睛看,耳朵听,手触摸。这种多模式的方式可以从不同的方面提供更全面的信息。受人类的多感官整合能力的启发,从不同传感器收集的多模态数据在机器学习中更容易被考虑。近年来,多模态学习在提高以往单模态任务的性能以及解决动作识别、视听语音识别、视觉问答等新的挑战性问题方面表现出了明显的优势。与单模态数据相比,多模态数据通常提供更多的视图,因此使用多模态数据的学习应该匹配或优于单模态情况。原创 2023-08-02 20:50:50 · 423 阅读 · 0 评论 -
MixFormerV2: Efficient Fully Transformer Tracking
视觉物体跟踪一直是计算机视觉中一项基本而长期的任务,目的是在其初始边界框的视频序列中定位物体。它有广泛的实际应用,通常需要较低的计算延迟。因此,在保持高精度的同时,设计一个更高效的跟踪架构是很重要的。最近,基于变压器的单流跟踪器[7,14,54]获得了良好的跟踪精度,由于变压器块内的特征提取和目标集成的统一建模,这允许两个组件受益于变压器的开发(例如,维特[17],自我监督预训练[23]或对比预训练[42])。然而,对于这些跟踪器来说,推理效率,特别是在CPU上,仍然是实际部署的主要障碍。原创 2023-07-26 23:46:17 · 1631 阅读 · 0 评论 -
SeqTrack: Sequence to Sequence Learning for Visual Object Tracking
视觉目标跟踪是计算机视觉中的一项基本任务。它的目的是估计任意目标在视频序列中的位置,只给定它在初始帧中的位置。现有的跟踪方法通常采用分治策略,将跟踪问题分解为多个子任务,如目标尺度估计和中心点定位等。每个子任务都由一个特定的头网络来处理。例如,SiamRPN及其后续工作采用分类头进行目标定位,采用回归头进行规模估计,如图1(a).所示。STARK和基于变压器的跟踪器设计了角头网络来预测目标物体的边界盒角,如图1(b).所示。这种分治之策略在跟踪基准上表现出优越的性能,从而成为现有模型的主流设计。原创 2023-06-16 10:51:05 · 1908 阅读 · 0 评论 -
Hard Patches Mining for Masked Image Modeling
自监督学习的目标是从没有任何注释的大规模数据集中学习可扩展的特征表示,一直是计算机视觉(CV)的研究热点。受自然语言处理(NLP)中的掩蔽语言建模(MLM)的启发,该模型被敦促预测句子中的掩蔽词,CV中的掩蔽图像建模(MIM)引起了许多研究者的极大兴趣。图1a显示了MIM预训练的传统方法的范例。在这些典型的解决方案中,模型通常侧重于预测掩蔽补丁的特定内容。直观地说,这个过程可以被看作是训练一个学生(即模型)来解决给定的问题(即预测掩蔽补丁)。原创 2023-05-16 21:44:12 · 732 阅读 · 0 评论 -
Can we learn better with hard samples
多年来,深度神经网络(DNNs)在许多表示学习任务中脱颖而出。反向传播算法是训练神经网络的首选方法。反向传播算法允许多层神经网络学习输入和输出之间的复杂表示。它克服了在感知器等神经网络中学习线性可分离向量的局限性。本质上,数据越复杂,需要的反向传播就越多。深度学习领域已经从使用简单的人工神经网络学习简单的线性表示,到使用转换器学习高度复杂的细粒度表示,所有这些都使用反向传播。神经网络中的反向传播算法可以批量应用(批量梯度下降)、每个样本(随机梯度下降)甚至小批量应用(小批量梯度下降)上应用。原创 2023-04-13 17:41:27 · 505 阅读 · 0 评论 -
Generalist: Decoupling Natural and Robust Generalization
我们提出了一个名为多面手的双专家框架来改进自然泛化和鲁棒泛化之间的权衡问题,它训练两个负责互补领域的基础学习者,并收集他们的参数来构建一个全局学习者。通过与联合训练范式的解耦,每个基础学习者都可以使用基于数据分布的定制策略。我们提供了理论分析来证明任务感知策略的有效性,并广泛的实验表明,多才手更好地减轻了准确性和鲁棒性的权衡。原创 2023-04-07 08:46:17 · 421 阅读 · 0 评论 -
DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks
MAE的一个简单扩展是在视频中随机掩码帧块并重建帧像素。然而,我们发现这种简单的基线严重依赖于空间线索,而**忽略了帧重建的时间关系**,从而导致VOT和VOS的时间匹配表示次优。为了缓解这一问题,我们提出了DropMAE,它在帧重构中自适应地执行空间注意退出,以促进视频中的时间对应学习。原创 2023-04-05 12:20:47 · 2244 阅读 · 7 评论 -
DETR&DDETR
DETR的思路是将backbone输出特征图的像素展开成一维后当成了序列长度,而batch和channel的定义不变。原创 2022-10-26 18:47:20 · 1104 阅读 · 0 评论 -
Yolov1-v4学习笔记
总体而言这是本人整合的关于yolo的资料,里面大部分是借鉴网上优秀作者的文章。是给自己方便理解整理的。原创 2022-10-11 20:23:55 · 930 阅读 · 0 评论 -
图卷积神经网络(GCN)
图卷积神经网络(GCN)的初级认识原创 2022-10-07 15:29:12 · 19842 阅读 · 0 评论