
CV论文笔记
文章平均质量分 92
工大CV吴彦祖
这个作者很懒,什么都没留下…
展开
-
Streaming Dense Video Captioning
我们的结果表明,我们的流模型比最先进的模型显着改进,后者不可避免地使用更少的帧或更少的特征,最多 11.0CIDEr 点。给出一个任意长度的视频,最先进的模型要么以大跨步[11,30,48]对非常少的帧(例如,6帧/帧)进行采样(即,时间下采样),要么对所有帧[51,59,65]保持每帧一个特征(即,空间下采样)。给出一个任意长度的视频,最先进的模型要么以大跨步[11,30,48]对非常少的帧(例如,6帧/帧)进行采样(即,时间下采样),要么对所有帧[51,59,65]保持每帧一个特征(即,空间下采样)。原创 2025-01-01 14:57:11 · 962 阅读 · 0 评论 -
Conditional DETR论文笔记
最近开发的DETR方法将变压器编码器和解码器架构应用于目标检测,取得了良好的性能。在本文中,我们解决了关键问题,训练收敛缓慢,并提出了一种条件交叉注意机制来实现快速DETR训练。我们的方法的动机是 DETR 中的交叉注意力高度依赖于内容嵌入来定位四肢并预测框,这增加了对高质量内容嵌入的需求,从而增加了训练难度。我们的方法名为条件 DETR,从解码器嵌入(decoder embedding)中学习条件空间查询(a conditional spatial query),用于解码器多头交叉注意力。原创 2024-10-29 19:54:57 · 1301 阅读 · 2 评论 -
Anchor DETR论文笔记
在本文中,我们提出了一种新的基于变压器的目标检测查询设计。在之前的基于变压器的检测器中,对象查询是一组学习嵌入。然而,每个学习嵌入没有明确的物理意义,我们无法解释它将关注的地方。很难优化,因为每个对象查询的预测槽没有特定的模式。换句话说,每个对象查询不会关注特定区域。为了解决这些问题,在我们的查询设计中,对象查询基于锚点,这已经广泛用于基于 CNN 的检测器。因此,每个对象查询都关注锚点附近的对象。此外,我们的查询设计可以在一个位置预测多个对象以解决困难:“一个区域、多个对象。原创 2024-10-21 20:55:00 · 1244 阅读 · 0 评论 -
Deformable Transformer论文笔记(2)
在编码器中,我们从 ResNet (He et al., 2016) 中阶段 C3 到 C5 的输出特征图中提取多尺度特征图 {xl}l=1->L-1 (L = 4)(各层特征最终再由 1 × 1 卷积转换),其中 Cl 的分辨率比输入图像低 2^l倍。对于每个查询像素,参考点本身。在交叉注意模块中,对象查询从特征图中提取特征,其中 键元素是来自编码器的输出特征图。由于我们提出的可变形注意模块被设计为将卷积特征映射处理为键元素,我们只将每个交叉注意模块替换为多尺度可变形注意模块,同时保持自我注意模块不变。原创 2024-10-08 21:07:40 · 1007 阅读 · 0 评论 -
Deformable Transformer论文笔记(1)
DETR最近被提出以消除对目标检测中许多手工设计的组件的需求,同时表现出良好的性能。然而,由于Transformer注意模块在处理图像特征映射方面的局限性,它收敛速度慢,特征空间分辨率有限。为了缓解这些问题,我们提出了 Deformable DETR,其注意力模块只关注参考点周围的一小部分的关键采样点。可变形 DETR 可以比 DETR(尤其是在小物体上)获得更好的性能,训练时间减少了 10 倍。在 COCO 基准上的广泛实验证明了我们方法的有效性。原创 2024-10-07 20:56:56 · 2531 阅读 · 0 评论 -
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection论文笔记
我们提出了DINO (DETR with improved deNoising anchOr box),这是一种最先进的端到端对象检测器。DINO通过使用对比方法进行去噪训练、使用混合query选择方法进行anchor初始化,和两次前向的box预测方案,提高了以前类似DETR的模型性能和效率。DINO在COCO上使用ResNet-50骨干网和多尺度特征在12个epoch后达到了49.4AP在24个epoch达到了51.3AP,比之前的最佳类DETR模型DN-DETR分别提高了+6.0AP和+2.7AP。原创 2024-10-07 20:44:14 · 1529 阅读 · 0 评论 -
Efficient DETR: Improving End-to-End Object Detector with Dense Prior
原文链接原文笔记WhatWhyChallengeHowWe define the object container as a container of structured information, which includes different kinds of object features. Object queries and reference points both belong to the object container, since the object queries and the原创 2024-09-26 16:53:00 · 916 阅读 · 0 评论 -
《Pyramid Vision Transformer》论文笔记
尽管卷积神经网络 (CNN) 在计算机视觉中取得了巨大成功,但这项工作研究了一种更简单、无卷积的骨干网络,可用于许多密集预测任务。与最近提出的专门为图像分类设计的Vision Transformer (ViT) 不同,我们引入了金字塔视觉转换器 (PVT),它克服了将 Transformer 移植到各种密集预测任务的困难。与现有技术相比,PVT有几个优点。(1) 与通常产生低分辨率输出并产生高计算和内存成本的 ViT 不同,PVT 不仅可以在图像的密集分区上进行训练以实现高输出分辨率,原创 2024-09-19 20:55:53 · 1356 阅读 · 2 评论 -
CCFF:RT-DETR中的CCFF结构代码详解(Pytorch)
基于上述分析,我们重新思考编码器的结构,提出了一种有效的混合编码器,由基于注意力的尺度内特征交互(AIFI)和基于 CNN 的跨尺度特征融合(CCFF)两个模块组成。然而,由于缺乏语义概念以及重复和与高级特征交互混淆的风险,低级特征的尺度内交互是不必要的。CCFF是作者提出的一种类似于特征金字塔的特征融合模块,S3,S4,S5是backbone的后三层,作者在论文中证明了只对S5进行尺度内交互,而不对更低级别的特征进行尺度内交互,并对次做法的合理性进行了证明,再次不多赘述。省略一部分位置编码的代码。原创 2024-08-12 20:57:00 · 2399 阅读 · 0 评论 -
《RT-DETR》论文笔记
YOLO系列因其速度和准确性之间的合理权衡而成为实时目标检测最流行的框架。然而,我们观察到 YOLO 的速度和准确性受到 NMS 的负面影响。最近,端到端基于变压器的检测器 (DETR) 提供了一种消除 NMS 的替代方案。然而,高计算成本限制了它们的实用性,阻碍了它们充分利用排除NMS的优势。在本文中,我们提出了实时检测转换器(RT-DETR),据我们所知,这是解决上述困境的第一个实时端到端对象检测器。我们分两步。原创 2024-08-08 20:48:56 · 2266 阅读 · 0 评论 -
《ClipCap》论文笔记(下)
可以看出,我们生成的标题是有意义的,并且成功地描述了两个数据集的图像。可以看出,我们的概念字幕模型可以很好地推广到任意看不见的图像,因为它是在相当大的和多样化的图像集上训练的。例如,我们的方法识别木勺或蜡烛比图 3 中的 Oscar 更好的蛋糕,因为 CLIP 是在一组不同的图像上进行预训练的。与Li等人[19]类似,我们使用常用指标BLEU[27]、METEOR[10]、CIDEr[37]和SPICE[3]在COCO数据集上验证我们的结果,以及使用CIDEr和SPICE的nocaps数据集。原创 2024-07-04 20:06:41 · 1369 阅读 · 1 评论 -
《ClipCap》论文笔记(上)
mapper/mapper输出的带prefix的序列 就是做一个CLIP和GPT2的桥梁,如果是训练时不冻结decoder则decoeder和mapper都适应clip,效果自然好,这会儿用mlp或者tansformer结构的mapper都可以,但是作者又通过实验证明:我们得出结论,当采用语言模型的微调时,转换器体系结构的表达能力是不必要的。;如果decoder冻结,mapper就完全当一个转接器做一个承上启下的作用,这时候就更建议用能力更强的Transformer结构的mapper。原创 2024-07-04 14:28:31 · 1351 阅读 · 0 评论 -
《KAN》论文笔记
受 Kolmogorov-Arnold 表示定理的启发,我们提出了 KolmogorovArnold Networks (KANs) 作为多层感知器 (MLP) 的有前途的替代方案。虽然 MLP 在节点(“神经元”)上具有固定激活函数,但 KAN 在边上(“权重”)具有可学习的激活函数。KAN 根本没有线性权重——每个权重参数都被参数化为样条的单变量函数所取代。我们表明,这种看似简单的变化使得 KAN 在准确性和可解释性方面优于 MLP。对于准确性,在数据拟合和 PDE 求解中,较小。原创 2024-05-28 14:19:18 · 1903 阅读 · 3 评论 -
《KAN》的四个问题(转自b站耿直哥)
x和y经过直线求和再二次函数对应x加y的平方,而二者直接二次函数激活对应x方和y方,过反斜杠直线相当于求差,简直就是所见即所得,这带来了两大好处,正着用算法可以实现数据内在模式的探索和发现,反着用能把世界模型和学科知识嵌入网络结构,让Sora这样的模型长上翅膀,实现对物理世界的真实模拟。除此之外他还提出了新的网络结构自适应算法:在初始网络上通过稀疏化,剪枝,设定特定的激活函数,训练放射参数,符号化等步骤进行优化,大大提升了网络的可解释性让神经网络这个黑河训练的老大难问题得到了极大的缓解。原创 2024-05-20 15:58:59 · 923 阅读 · 0 评论 -
《TAM》论文笔记(上)
由于相机运动、速度变化和不同活动等因素,视频数据具有复杂的时间动态。为了有效地捕捉这种多样化的运动模式,本文提出了一种新的时间自适应模块(TAM),根据自己的特征图生成视频特定的时间核。TAM提出了一种独特的两级自适应建模方案,将动态核解耦为位置敏感重要性图和位置不变聚合权重。重要性图是在局部时间窗口中学习的,以捕获短期信息,而聚合权重是从全局视图生成的,重点是长期结构。原创 2024-05-09 23:36:06 · 1538 阅读 · 0 评论 -
《Tam》论文笔记(下)
此外,我们的全局分支本质上执行一个视频自适应卷积,其滤波器的大小为1 × k × 1 × 1,而正常3D卷积中的每个滤波器的大小为C × k × k,其中C为通道数,k为接收野。这两个分支侧重于时间信息的不同方面,其中局部分支试图通过使用时间卷积来捕获短期信息以关注重要特征,而全局分支旨在结合远程时间结构来指导具有全连接层的自适应时间聚合。我们的TAM由两个分支组成:局部分支L和一个全局分支G,旨在学习位置敏感的重要性图来增强鉴别特征,然后产生位置不变权值,以卷积的方式自适应地聚合时间信息。原创 2024-05-09 23:16:01 · 1002 阅读 · 0 评论 -
《Video Mamba Suite》论文笔记(1)Mamba在时序建模中的作用
理解视频是计算机视觉研究的基本方向之一,在大量致力于探索 RNN、3D CNN 和 Transformer 等各种架构的工作的努力下。新提出的状态空间模型架构,例如 Mamba,展现出了其能够将长序列建模方面的成功扩展到视频建模领域的良好特性。为了评估 Mamba 是否可以成为视频理解领域中 Transformer 的可行替代方案在这项工作中,我们进行了一组全面的研究,探索 Mamba 在视频建模中可以扮演的不同角色,同时研究 Mamba 可能展现出良好性能的不同任务。原创 2024-05-06 15:26:01 · 2360 阅读 · 0 评论 -
《Video Mamba Suite》论文笔记(4)Mamba在时空建模中的作用
对于由 M 帧组成的给定输入,我们在对应于每一帧的标记序列的中间插入 cls 标记。有趣的是,尽管 ImageNet-1K 上 ViT-S [69] 和 ViM-S [96] 之间的性能差距很小(79.8 vs. 88.5),ViViM-S 在零样本多实例检索上显示出比 ViT-S 的显着改进(+2.1 mAP@Avg)。通过Video Mamba Suite,包括14个模型/模块12个视频理解任务,我们证明了Mamba能够有效地处理复杂的时空动态,表现出优越的性能和有前途的效率-性能权衡。原创 2024-05-06 17:04:42 · 1516 阅读 · 2 评论 -
《Video Mamba Suite》论文笔记(3)Mamba作为时序适配器的作用
这确保了新模型的输出与原始模型的输出相匹配。值得注意的是,标准的ViM块比自我注意力模块(4C^2)具有更多的参数(略多于6.25C^2),其中C指的是特征维度。值得注意的是,与时间自注意力块相比,我们使用的 VIM 时间块的参数更少,突出了 Mamba 选择性扫描 [30] 的特殊参数利用率和信息提取能力。令人惊讶的是,我们观察到时空 ViM 块虽然在时空级别引入了全局建模,但实际上会导致性能下降(ID7 vs ID8)我们假设基于扫描的时空可能会损害预先训练的空间注意块产生的空间特征分布。原创 2024-05-06 16:25:48 · 1532 阅读 · 0 评论 -
《Video Mamba Suite》论文笔记(2)Mamba对于多模态交互的作用
对于 Charade-STA [28],基于 Mamba 的方法也实现了相当的性能。鉴于 Mamba [30] 是一个基于线性扫描的模型,而转换器基于全局令牌交互,直观地说,我们认为标记序列中文本的位置。为了研究这一点,我们在表 7 中包含了不同的文本视觉融合方法,而图 3 说明了四种不同的标记排列。Qvhighlight[44]受到这种融合的影响较小,而 Charade-STA [28] 对文本位置表现出特别的敏感性,这可能是由于数据集的特征。最后,取出文本增强的视频特征̃Ve,然后送入预测头。原创 2024-05-06 16:04:01 · 932 阅读 · 0 评论 -
《Vid2Seq》论文笔记
在这项工作中,我们引入了Vid2Seq,这是一种多模态单阶段密集事件字幕模型,它在大规模可用的叙述视频上进行了预训练,Vid2Seq 架构使用特殊的时间标记(time tokens)增强了语言模型,使其能够同时预测同一输出序列中的事件边界和文本描述。这种统一的模型需要大规模的训练数据,这在当前的注释数据集中是不可用的。我们表明,通过将转录语音的句子边界重新表述为伪事件边界,并使用转录的语音句子作为伪事件字幕,可以利用未标记的叙述视频进行密集视频字幕。原创 2024-04-22 21:07:32 · 2107 阅读 · 4 评论 -
《GVL》论文笔记
近年来,联合视频-语言学习受到越来越多的关注。然而,现有的工作主要集中在单个或多个修剪的视频剪辑(事件),这使得人工注释的事件边界在推理的过程中变得很重要。为了摆脱这种关系,我们提出了一个针对未修剪视频的基础视觉语言学习框架,该框架自动检测信息事件并有效地挖掘多句描述与相应事件段之间的对齐。我们没有粗略的视频语言对齐,而是提出了两个双重先验任务(pretext task)来促进细粒度的段级对齐,即文本到事件的定位 (TEG) 和事件到文本生成 (ETG)。原创 2024-04-15 01:11:57 · 1194 阅读 · 1 评论 -
《PDVC》论文笔记
传统的二阶段方法通过将注意力区域限制在事件边界内来对齐事件片段及其标题,但本文的标题头不能访问事件的边界,增加了学习语言单词和帧之间关系的优化难度。最后,选择置信度最高的个事件作为最终的结果。然后,就得到一组元组,,来表示检测到的事件,其中是事件查询的定位置信度。为了在视频中捕获丰富的时空特征,首先采用了一个预训练的动作识别网络来提取帧级的特征,并通过插值算法将特征图的时间维度缩放到固定长度,以方便。之间的互相促进,作者直接检测一组具有适当时间长度的标题,其中分别表示事件的开始时间、结束时间和事件的标题。原创 2024-04-03 18:54:03 · 1567 阅读 · 1 评论 -
《VMamba》论文笔记
我们证明了通过mamba[12]引入的选择性扫描机制,所提出的VMamba能够匹配现有流行的视觉基础模型,如ResNet[19]、ViT[10]、swin[27]和convnext[29],显示了VMamba作为强大基础模型的潜力。早期基于vit的模型通常需要大规模的数据测试[10],并以朴素的配置出现[54,58,1,31]。在强大的计算设备(GPU)和大规模数据集[7]的帮助下,越来越深入的[38,41,19,22]和高效的模型[20,42,52,36]被提出,以提高跨视觉任务的性能。原创 2024-03-30 20:53:47 · 5489 阅读 · 2 评论 -
《VideoMamba》论文笔记
基于注意力的模型[2,4,59,63,89]的引入,如TimeSformer[4]和ViViT[2],通过有效地捕获视频序列中的远程依赖关系,增强了时间关系的理解,取得了显著的进展。结果如图6a所示,表明该策略可以获得预期的更好的收敛性。(1)视觉域中的可扩展性:我们检查 VideoMamba 的可扩展性并发现,虽然纯 Mamba 模型随着规模的增加而趋于过拟合,但我们引入了一种简单而有效的自蒸馏策略,允许 VideoMamba 随着模型和输入大小的增加而实现显着的性能改进,而无需大规模数据集预训练。原创 2024-03-29 22:08:13 · 3036 阅读 · 3 评论 -
《Vision mamba》论文笔记
最近,具有高效硬件感知设计的状态空间模型 (SSM),即 Mamba 深度学习模型,在长序列建模方面显示出巨大潜力。同时,纯粹基于SSM构建高效通用的视觉骨干是一个吸引人的方向。然而,由于视觉数据的位置敏感性和全局上下文对视觉理解的要求,表示视觉数据对SSMs具有挑战性。在本文中,我们表明,不需要依赖自注意力进行视觉表示学习并提出了一种新的具有双向 Mamba 块 (Vim) 的通用视觉主干,它使用位置嵌入标记图像序列并使用双向状态空间模型压缩视觉表示。原创 2024-03-28 21:54:45 · 3444 阅读 · 6 评论 -
Mamba: Linear-Time Sequence Modeling with Selective State Spaces(论文笔记)
现在为深度学习中大多数令人兴奋的应用程序提供动力的基础模型,几乎普遍基于Transformer架构及其核心的注意力模块。许多subquadratic-time(次二次时间)架构,如线性注意力、门控卷积和循环模型,以及结构化状态空间模型(ssm)已经被开发出来,以解决Transformer在长序列上的计算效率低下问题,但它们在语言等重要模态上的表现不如注意力。我们发现这些模型的一个关键弱点是它们无法执行基于内容的推理,并进行了一些改进。首先,简单地让SSM参数成为输入的函数,通过离散模态。原创 2024-03-26 17:28:08 · 2383 阅读 · 2 评论 -
YOLOV1-V9发展历程(1) (V1-V5)
1、准确 (候选框多,效果自然好一些)1、慢 2、候选框太小不能看到整个图像的全景(管中窥豹)(会丢失信息:背景|背景和前景之间的关系|不同物体之间的关系|全图的关系)速度快,不需要复杂的上下游产业链的协同,也不需要对每一个工序单独的训练和优化,是一个,端到端,完整统一的框架但准确率不高,对小目标和密集目标识别效果不好(当然这是以前的说法了)better:比V1性能提升。准确率高Faster:比V1更快Strong:V2能检测9000多种类别。原创 2024-03-19 17:15:58 · 2914 阅读 · 4 评论 -
SwinTransformer论文笔记
Patch Merging顾名思义就是把临近的小patch合并成一个大patch,这样就可以起到下采样一个特征图的效果了,文中的的patch Merging是想下采样两倍,所以说在选点的时候是每隔一个点选一个,经过隔一个点采一个样之后,原来这个张量就变成了四个张量,,如果原张量的维度是h*w*c,经过这次采样之后就得到了四个张量,每个张量的大小是h/2、w/2,4c它的尺寸都缩小了一倍,相当于用空间上的维度换了更多的通道数。在浅层的卷积层中,卷积核的感受野较小,只能看到输入特征图的局部区域。原创 2024-03-14 14:35:44 · 978 阅读 · 0 评论 -
《Learning Hierarchical Modular Networks for Video Captioning》论文笔记
1、文章作者提出了一个分层模块化网络(HMN),在生成字幕之前,以四个粒度连接视频表示和语言语义:实体、动词、谓词和句子。每个级别由一个模块实现,以将相应的语义嵌入到视频表示中。2、提出了一个基于字幕场景图的强化学习模块,以更好地衡量句子的相似性。视频字幕旨在为给定的视频剪辑生成自然语言描述。现有方法主要侧重于通过预测字幕和真实文本之间的逐字比较进行端到端表示学习。尽管取得了重大进展,但这种监督方法忽略了视觉和语言实体之间的语义对齐,这可能会对生成的字幕产生负面影响。在这项工作中,我们提出。原创 2024-03-14 14:28:42 · 2124 阅读 · 0 评论 -
DETR学习笔记
PaperReader上搜索EndtoEnd。原创 2024-03-07 21:02:37 · 1141 阅读 · 0 评论 -
Alpha-CLIP: A CLIP Model Focusing on Wherever You Want
对比语言-图像预训练(CLIP)在从不同任务中从图像中提取有价值的内容信息方面起着至关重要的作用。它将文本和视觉模式对齐以理解整个图像,包括所有细节,即使是与特定任务无关的细节。然而,为了更精细地理解和控制图像的编辑,关注特定感兴趣区域变得至关重要,这些区域可以表示为点、掩码或框由人类设置或由模型生成。为了满足需求,我们引入了Alpha-CLIP,这是一个增强的CLIP版本带有辅助alpha通道,以建议注意区域,并使用构建的数百万个RGBA区域-文本对进行微调。原创 2024-03-04 22:12:47 · 2294 阅读 · 0 评论