
DenceVideoCaption
文章平均质量分 93
工大CV吴彦祖
这个作者很懒,什么都没留下…
展开
-
《Video Mamba Suite》论文笔记(1)Mamba在时序建模中的作用
理解视频是计算机视觉研究的基本方向之一,在大量致力于探索 RNN、3D CNN 和 Transformer 等各种架构的工作的努力下。新提出的状态空间模型架构,例如 Mamba,展现出了其能够将长序列建模方面的成功扩展到视频建模领域的良好特性。为了评估 Mamba 是否可以成为视频理解领域中 Transformer 的可行替代方案在这项工作中,我们进行了一组全面的研究,探索 Mamba 在视频建模中可以扮演的不同角色,同时研究 Mamba 可能展现出良好性能的不同任务。原创 2024-05-06 15:26:01 · 2359 阅读 · 0 评论 -
《Vid2Seq》论文笔记
在这项工作中,我们引入了Vid2Seq,这是一种多模态单阶段密集事件字幕模型,它在大规模可用的叙述视频上进行了预训练,Vid2Seq 架构使用特殊的时间标记(time tokens)增强了语言模型,使其能够同时预测同一输出序列中的事件边界和文本描述。这种统一的模型需要大规模的训练数据,这在当前的注释数据集中是不可用的。我们表明,通过将转录语音的句子边界重新表述为伪事件边界,并使用转录的语音句子作为伪事件字幕,可以利用未标记的叙述视频进行密集视频字幕。原创 2024-04-22 21:07:32 · 2106 阅读 · 4 评论 -
《GVL》论文笔记
近年来,联合视频-语言学习受到越来越多的关注。然而,现有的工作主要集中在单个或多个修剪的视频剪辑(事件),这使得人工注释的事件边界在推理的过程中变得很重要。为了摆脱这种关系,我们提出了一个针对未修剪视频的基础视觉语言学习框架,该框架自动检测信息事件并有效地挖掘多句描述与相应事件段之间的对齐。我们没有粗略的视频语言对齐,而是提出了两个双重先验任务(pretext task)来促进细粒度的段级对齐,即文本到事件的定位 (TEG) 和事件到文本生成 (ETG)。原创 2024-04-15 01:11:57 · 1188 阅读 · 1 评论 -
《PDVC》论文笔记
传统的二阶段方法通过将注意力区域限制在事件边界内来对齐事件片段及其标题,但本文的标题头不能访问事件的边界,增加了学习语言单词和帧之间关系的优化难度。最后,选择置信度最高的个事件作为最终的结果。然后,就得到一组元组,,来表示检测到的事件,其中是事件查询的定位置信度。为了在视频中捕获丰富的时空特征,首先采用了一个预训练的动作识别网络来提取帧级的特征,并通过插值算法将特征图的时间维度缩放到固定长度,以方便。之间的互相促进,作者直接检测一组具有适当时间长度的标题,其中分别表示事件的开始时间、结束时间和事件的标题。原创 2024-04-03 18:54:03 · 1566 阅读 · 1 评论 -
《Vision mamba》论文笔记
最近,具有高效硬件感知设计的状态空间模型 (SSM),即 Mamba 深度学习模型,在长序列建模方面显示出巨大潜力。同时,纯粹基于SSM构建高效通用的视觉骨干是一个吸引人的方向。然而,由于视觉数据的位置敏感性和全局上下文对视觉理解的要求,表示视觉数据对SSMs具有挑战性。在本文中,我们表明,不需要依赖自注意力进行视觉表示学习并提出了一种新的具有双向 Mamba 块 (Vim) 的通用视觉主干,它使用位置嵌入标记图像序列并使用双向状态空间模型压缩视觉表示。原创 2024-03-28 21:54:45 · 3444 阅读 · 6 评论 -
Mamba: Linear-Time Sequence Modeling with Selective State Spaces(论文笔记)
现在为深度学习中大多数令人兴奋的应用程序提供动力的基础模型,几乎普遍基于Transformer架构及其核心的注意力模块。许多subquadratic-time(次二次时间)架构,如线性注意力、门控卷积和循环模型,以及结构化状态空间模型(ssm)已经被开发出来,以解决Transformer在长序列上的计算效率低下问题,但它们在语言等重要模态上的表现不如注意力。我们发现这些模型的一个关键弱点是它们无法执行基于内容的推理,并进行了一些改进。首先,简单地让SSM参数成为输入的函数,通过离散模态。原创 2024-03-26 17:28:08 · 2383 阅读 · 2 评论 -
Video Caption的常用数据集(持续更新)
虽然人们对用自然语言描述视频的任务越来越感兴趣,但目前的计算机视觉算法在视频及其可以识别的相关语言的可变性和复杂性方面仍然受到严重限制。这在一定程度上是由于当前基准测试的简单性,这些基准测试主要集中在特定的细粒度领域,具有有限的视频和简单的描述。虽然研究人员已经为图像字幕提供了几个基准数据集,但我们不知道有任何大规模的视频描述数据集具有全面的类别和多样化的视频内容。在本文中,我们提出了MSR-VTT(代表“MSR视频到文本”),这是一种用于视频理解的新型大规模视频基准,特别是将视频转换为文本的新兴任务。原创 2024-03-14 16:13:35 · 4620 阅读 · 0 评论 -
《Learning Hierarchical Modular Networks for Video Captioning》论文笔记
1、文章作者提出了一个分层模块化网络(HMN),在生成字幕之前,以四个粒度连接视频表示和语言语义:实体、动词、谓词和句子。每个级别由一个模块实现,以将相应的语义嵌入到视频表示中。2、提出了一个基于字幕场景图的强化学习模块,以更好地衡量句子的相似性。视频字幕旨在为给定的视频剪辑生成自然语言描述。现有方法主要侧重于通过预测字幕和真实文本之间的逐字比较进行端到端表示学习。尽管取得了重大进展,但这种监督方法忽略了视觉和语言实体之间的语义对齐,这可能会对生成的字幕产生负面影响。在这项工作中,我们提出。原创 2024-03-14 14:28:42 · 2122 阅读 · 0 评论 -
Dence Video Caption方向论文整理(持续更新)(转载标明出处)
什么是密集视频描述?andvideos.密集视频描述要在的视频上定位对事件这是一个非常复杂的问题,因为这个问题:1、涉及到多模态2、从模型整体来说,有分布式模型也有端到端模型,各自有各自的优缺点3、(无论模型整体分布式模型还是端到端模型)功能模块多,系统层次深,如何组合各个模块协同工作4、模块内部架构的选择也是一个问题。原创 2024-03-12 22:59:12 · 1971 阅读 · 2 评论