
跨模态检索
文章平均质量分 93
若年封尘
这个作者很懒,什么都没留下…
展开
-
跨模态检索论文阅读:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可学习支柱的图像文本检索重排
图像-文本检索旨在弥合模态鸿沟,根据语义相似性检索跨模态内容。之前的工作通常侧重于成对关系(即一个数据样本是否与另一个样本匹配),但忽略了高阶邻接关系(即多个数据样本之间的匹配结构)。重新排序是一种流行的后处理方法,它揭示了在单模态检索任务中捕捉邻接关系的优越性。然而,将现有的重新排序算法直接扩展到图像文本检索中效果并不理想。本文从泛化性、灵活性、稀疏性和不对称性四个角度分析了原因,并提出了一种新颖的基于可学习支柱的重新排序范式。原创 2024-01-07 16:29:27 · 1933 阅读 · 3 评论 -
跨模态检索论文阅读:Plug-and-Play Regulators for Image-Text Matching用于图像文本匹配的即插即用调节器
在本文中,引入了[32]-[35]定义的调节器机制,其中可以通过自适应地优化具有合理的后向反馈的前向学习过程来改进网络,并验证了精心设计的监管操作可以在不需要额外数据和复杂结构的情况下,在获得准确的相互作用和进行跨模式的最佳聚合方面发挥巨大作用。更具体地说,我们提出了一种递归相关性调节器(RCR)和递归聚合调节器(RAR)来逐步促进图像-文本匹配过程,如图1所示。RCR学习每个特定单词/区域的自适应注意因子,以迭代地细化跨模式注意单元,为不同图像-文本对中语义不同的单词/区域获得更合理的注意分布。原创 2023-12-28 12:09:43 · 2045 阅读 · 4 评论 -
跨模态检索论文阅读:Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval
文本到图像的人物检索仍然是一项艰巨的任务,原因在于身份内部的显著差异以及视觉和语言之间的模式异质性。前一个挑战源于这样一个事实,即身份的视觉外观因姿势、视角、照明和其他因素而不同,而文本描述则因任意描述顺序和文本模糊性而不同。后一个挑战是跨模态任务中的主要问题,是由视觉和语言之间固有的表征差异造成的。为了应对上述两个挑战,文本到图像的人物检索的核心研究问题是探索更好的方法来提取具有区分性的特征表征,并设计更好的跨模态匹配方法来将图像和文本统一到一个联合嵌入空间中。原创 2023-12-17 20:17:09 · 2468 阅读 · 4 评论 -
A Differentiable Semantic Metric Approximation in Probabilistic Embedding for Cross-Modal Retrieval
跨模态检索旨在通过学习一个公共的表示空间来建立多个模态之间的对应关系。通常,图像可以在语义上匹配多个文本,反之亦然,这大大增加了这项任务的难度。为了解决这个问题,提出了概率嵌入来量化多对多关系。然而现有的数据集(例如MS-COCO)和度量(例如。,recall@k)由于非详尽的注释,不能完全表示这些多样性对应关系。基于这一观察结果,我们利用CIDEr计算的语义相关性来寻找潜在的对应关系。然后,我们提出了一个有效的度量标准,称为平均语义精度(ASP),它可以衡量检索集语义相关性的排序精度。原创 2023-12-08 18:52:28 · 1222 阅读 · 3 评论 -
跨模态检索Retrieve Fast, Rerank Smart:Cooperative and Joint Approaches for Improved Cross-Modal Retrieval
目前最先进的跨模态检索方法是基于 Transformer 的架构,通过交叉注意力机制对图像中的所有文字和对象进行关注,从而联合处理文本和视觉输入。这些模型虽然提供了无与伦比的检索性能,但也存在以下问题1)通常是从头开始预训练,因此可扩展性较差,2)存在巨大的检索延迟和效率低下问题,这使它们在现实应用中不切实际。为了解决这些关键差距,实现改进和高效的跨模态检索,我们提出了一种新颖的微调框架,可将任何预训练的文本-图像多模态模型转化为高效的检索模型。原创 2023-12-03 13:58:39 · 1416 阅读 · 3 评论 -
跨模态检索论文阅读:Learning Semantic Relationship among Instances for Image-Text Matching学习实例之间的语义关系实现图像-文本匹配
图像-文本匹配是连接图像和语言的桥梁,也是一项重要的任务,它一般通过学习跨模态的整体嵌入来实现两种模态之间高质量的语义对齐。然而,以往的研究只关注捕捉特定模态的样本内的片段级关系,例如图像中的突出区域或句子中的文本词,而通常不太关注捕捉样本和模态之间的实例级交互,例如多个图像和文本。因此,我们提出了一种新颖的分层关系建模框架(HREM),它能明确捕捉片段和实例级关系,以学习具有区分性和鲁棒性的跨模态嵌入。原创 2023-11-30 17:40:45 · 2151 阅读 · 3 评论 -
Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning视觉语言预训练任务SCL
简而言之,我们的贡献有三个方面。(1) 为了提高全局表征的全局到局部一致性,我们提出了一种新的预训练任务,称为语义填充学习(Semantic Com-pletion Learning,SCL),它能从未加掩码的数据中恢复缺失的语义信息,促进学习更具代表性的全局特征。(2) 我们设计了一种自适应视觉编码器,可以在图像和视频之间方便地传输多模态预训练知识。(3) 我们进行了多个视觉语言下游任务来证明语义完成学习和视觉编码器的通用性,包括视觉问题解答、视觉推理、图像文本检索和视频文本检索。原创 2023-11-28 18:45:13 · 1241 阅读 · 2 评论 -
跨模态检索论文阅读:Improving Cross-Modal Retrieval With Set of Diverse Embeddings利用多样嵌入集提高跨模态检索
跨图像和文本模态的跨模态检索由于其固有的模糊性而成为一项具有挑战性的任务:图像通常表现出各种情况,并且字幕可以与不同的图像相结合。基于集合的嵌入已经被研究作为这个问题的解决方案。它试图将样本编码为一组不同的嵌入向量,这些嵌入向量捕获样本的不同语义。本文提出了一种新的基于集合的嵌入方法,该方法在两个方面与以往的工作有所不同。首先,我们提出了一种新的相似性函数,称为光滑切角相似性,该函数旨在减轻现有相似性函数对基于集嵌入的副作用。原创 2023-11-26 22:30:31 · 1574 阅读 · 3 评论 -
跨模态检索综述A Survey of Full-Cycle Cross-Modal Retrieval: From a Representation Learning Perspective
图1.跨模态检索中的问题和挑战。原创 2023-08-26 12:42:27 · 2231 阅读 · 3 评论 -
跨模态检索论文阅读:Discrete-continuous Action Space Policy Gradient-based Attention for Image-Text Matching
现有的跨模态图文检索方法并没有明确地将不同的模态转换到一个共同的空间。同时,在图像-文本匹配模型中广泛使用的注意力机制不具备监督功能。我们提出了一种新颖的注意力方案,它将图像和文本嵌入投射到一个共同的空间,并直接根据评估指标优化注意力权重。所提出的注意力方案可视为一种监督注意力,无需额外注释。它通过一种新颖的离散-连续动作空间策略梯度算法进行训练,与之前的连续动作空间策略梯度算法相比,该算法在模拟复杂动作空间时更加有效。原创 2023-07-29 09:57:33 · 870 阅读 · 2 评论 -
跨模态检索论文阅读:(ViLT)Vision-and-Language Transformer Without Convolution or Region Supervision
ViLT使用预训练的ViT来初始化交互的transformer,这样就可以直接利用交互层来处理视觉特征,不需要额外增加一个视觉encoder。文本特征输入部分,将文本看成一个词序列,通过word embedding matrix转化成word embedding,然后和position embedding进行相加,最后和modal-type embedding进行concate。原创 2023-07-17 16:15:00 · 961 阅读 · 3 评论 -
CLIP论文阅读
迁移学习方式就是先在一个较大规模的数据集如ImageNet上预训练,然后在具体的下游任务上再进行微调。这里的预训练是基于有监督训练的,需要大量的数据标注,因此成本较高。近年来,出现了一些基于自监督的方法,这包括基于对比学习的方法如MoCo和SimCLR,和基于图像掩码的方法如MAE和BeiT,自监督方法的好处是不再需要标注。但是无论是有监督还是自监督方法,它们在迁移到下游任务时,还是需要进行有监督微调,而无法实现zero-shot。有监督模型:在新的数据集上需要定义新的分类器来重新训练。原创 2023-02-26 11:43:52 · 1103 阅读 · 3 评论 -
论文阅读:Adversarial Cross-Modal Retrieval对抗式跨模式检索
对抗性跨模态检索(ACMR)方法,它在对抗性学习的基础上寻求有效的共同子空间。对抗性学习是作为两个过程的相互作用来实现的。第一个过程,一个特征映射器,试图在公共子空间中生成一个模态不变的表示,并混淆另一个过程,即模态分类器,它试图根据生成的表示来区分不同的模态。我们进一步对特征映射器施加三重约束,以使具有相同语义标签的不同模态项的表示之间的差距最小化,同时使语义不同的图像和文本之间的距离最大化。原创 2023-03-09 20:14:53 · 2346 阅读 · 2 评论 -
跨模态检索论文阅读:IMRAM
本文为了解决这一缺陷,提出了一种基于循环注意记忆网络的迭代匹配与循环注意记忆(IMRAM)方法,以渐进的方式探索图像和文本之间的细粒度对应关系,具有两个特点:(1)具有跨模态注意单元的迭代匹配方案,以对齐来自不同模态的片段,(2)记忆蒸馏单元用于将对齐知识从早期步骤细化到后续步骤。在Flickr8K、Flickr30K和MS COCO三个基准数据集以及一个用于实际商业广告场景的新数据集(即KW AI-AD)达到SOTA。原创 2023-03-23 13:47:30 · 540 阅读 · 3 评论 -
跨模态检索的持续学习
多模态表示和持续学习是与人类智能密切相关的两个领域。前者考虑了共享表示空间的学习,其中来自不同模态的信息可以进行比较和集成(我们关注语言和视觉表示之间的跨模态检索)。后者研究如何防止在学习新任务时忘记以前学过的任务。虽然人类在这两个方面表现出色,但深度神经网络仍然相当有限。在本文中,我们提出将这两个问题结合到一个连续的跨模态检索设置中,在其中我们研究了新任务引起的灾难性干扰如何影响嵌入空间及其有效检索所需的跨模态对齐。我们提出了一个通用框架,将训练、索引和查询阶段解耦。原创 2023-04-02 15:46:47 · 1526 阅读 · 2 评论 -
跨模态检索论文阅读:Context-Aware Attention Network for Image-Text Retrieval
图像-文本双向检索在很大程度上依赖于每个图像-文本对的联合嵌入学习和相似性度量。先前的工作很少同时探索模态之间的语义对应和单一模态的语义关联。在这项工作中,我们提出了一个统一的上下文感知注意力网络工作(CAAN),它通过聚合全局上下文有选择地关注关键的局部片段(区域和单词)。具体来说,它同时利用全局模态间的对齐和模态内的关联来发现潜在的语义关系。考虑到检索过程中图像和句子之间的相互作用,模内关联来自于对区域-词排列的二阶关注,而不是直观地比较原始特征之间的距离。原创 2023-04-10 13:50:24 · 1570 阅读 · 6 评论 -
ALBEF:基于动量蒸馏的视觉语言表示学习
大规模的视觉和语言表征学习在各种视觉-语言任务上显示出有希望的改进。大多数现有的方法采用了基于Transformer的多模态编码器来联合建模视觉标记(基于区域的图像特征)和单词标记。由于视觉标记和单词标记是不一致的,多模态编码器要学习图像-文本的相互作用是很有挑战性的。在本文中,我们引入了一种对比性的损失,通过跨模态的注意力,将图像和文本表征进行ALign BEfore Fusing(ALBEF),这使得视觉和语言表征的学习更加接地气。原创 2023-05-01 21:03:50 · 1852 阅读 · 5 评论 -
跨模态检索论文泛读:VisualSparta-利用加权的词袋进行大规模的文本到图像的检索
VisualSparta,一个高效的跨模态检索模型,同时保证检索精度;该模型结合了预训练编码器和细粒度级别的打分方式;大规模的图像倒排索引使得检索非常高效,适合现实场景的跨模态检索。原创 2023-05-10 10:38:08 · 763 阅读 · 3 评论 -
跨模态检索论文阅读:Multi-Grained Vision Language Pre-Training: Aligning Texts with VisualConcepts(X-VLM)
提出进行多粒度的视觉语言预训练,以处理文本和视觉概念之间的对齐问题。提出通过定位图像中的视觉概念来优化模型(X-VLM),并同时将文本与视觉概念对齐,其中的对齐是多粒度的。通过经验验证,我们的方法在微调中有效地利用了学到的多粒度对齐。 具有256×256图像分辨率的X-VLMbase在许多下游的V+L任务上比现有的最先进的方法取得了实质性的改进。原创 2023-05-16 16:17:13 · 751 阅读 · 4 评论 -
跨模态检索论文阅读:Dissecting Deep Metric Learning Losses for Image-Text Retrieval(GOAL)
提出了一个通用框架GOAL来全面分析现有深度度量学习损失函数的梯度更新,并应用这个框架来帮助寻找VSE问题的更好目标。提出了一种新的方法,通过用梯度目标家族来优化模型,而不是使用损失函数,直接处理图像-文本检索任务。展示了对现有方法的持续改进,在COCO数据集的图像-文本检索任务中取得了最先进的结果。原创 2023-06-14 19:31:57 · 1768 阅读 · 5 评论 -
跨模态检索最新高质量综述《Image-text Retrieval: A Survey on Recent Research and Development》
本文从四个方面对ITR方法进行了全面和最新的调查。通过将ITR系统剖析为两个过程:特征提取和特征对齐,我们从这两个角度总结了ITR方法的最新进展。在此基础上,对ITR系统的效率研究作为第三个角度进行了介绍。为了与时俱进,我们还从第四个角度对跨模态预训练的ITR方法进行了开创性的概述。最后,我们概述了ITR的通用基准数据集和评估指标,并对有代表性的ITR方法进行了准确性比较。本文最后还讨论了一些关键但研究不多的问题。原创 2023-06-17 14:21:28 · 10999 阅读 · 3 评论 -
跨模态检索论文阅读:(PTP)Position-guided Text Prompt for Vision-Language Pre-training
在这项工作中,我们提出了一种新的位置引导的文本提示(PTP)范式,以提高用VLP训练的跨模态模型的视觉定位能力。具体来说,在VLP阶段,PTP将图像分为N×N块,并通过VLP中广泛使用的目标检测器识别每个块中的目标。然后,它通过鼓励模型预测给定区块中的目标或重新定义给定目标的区块,将视觉定位任务重新表述为给定PTP的填空问题,例如,在PTP中填写"[P]“或”[O]",“区块[P]中有一个[O]”。 这种机制提高了VLP模型的视觉定位能力,从而帮助它们更好地处理各种下游任务。原创 2023-06-23 12:18:14 · 1973 阅读 · 2 评论 -
跨模态检索2023年最新顶会论文汇总
我们的实验验证了我们的检索增强对比性(RECO)训练在几个具有挑战性的细粒度任务上大幅提高了CLIP的性能:例如,在斯坦福Cars上+10.9,在CUB-2011上+10.2,在最近的OVEN基准上+7.3。在本文中,我们提出了一种新的图像文本检索技术,被称为鲁棒的视觉语义嵌入(RVSE),它由新的基于图像和文本的增强技术组成,称为图像语义保护增强(SPAugI)和文本增强(SPAugT)。在全局和局部跨模态混合相似性的基础上,所提出的方法实现了最先进的检索性能,与最近的代表性方法相比,推理时间极短。原创 2023-06-22 11:47:00 · 4265 阅读 · 4 评论