多模态图文检索论文
文章平均质量分 74
论文阅读有粗读、精读之分。对于领域内经典(开山鼻祖、划时代、优秀写作)的论文可以精读,逐字逐句的读,以学习其思维方式和行文方式。对于领域内其他论文,粗读即可,读摘要(要读出背景、方法、结果、结论),读引言(要读出背景介绍、论文动机和方法概览),读图表(快速理解方法,了解实验结果),读结论(思考不足)
逝去〃年华
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Stacked Cross Attention for Image-Text Matching--ECCV2018
Stacked Cross Attention for Image-Text Matching一、这篇文章的研究目的是什么?二、作者最主要的发现是什么?三、作者的研究方法是什么?四、实验设计有什么highlight吗?五、作者的下一步计划是什么?六、有什么可以改进的地方?...原创 2021-06-25 15:41:50 · 1321 阅读 · 1 评论 -
Multimodal music information processing and retrieval: survey and future challenges
Multimodal music information processing and retrieval: survey and future challenges一、这篇文章的研究目的是什么?这篇文章属于综述性论文,主要是对于多模式音乐信息处理与检索的一个相关调查。目的是通过利用音乐各个方面的不同模态,来提高音乐信息处理与检索的性能。这篇文章对于主要做了三方面的研究:1.对其相关文献做了分类。2.分析了现有的多模态融合方法。3.未来几年领域内的挑战。二、作者的主要发现是什么?1.关于模态没有明确原创 2021-06-17 17:22:30 · 206 阅读 · 1 评论 -
Multimodal Discriminative Binary Embedding for Large-Scale Cross-Modal Retrieval--2016.10高新波团队
Multimodal Discriminative Binary Embedding for Large-Scale Cross-Modal Retrieval一.研究内容目前,多模态hash的研究主要是为了学习兼容的二进制码,以保留标签给出的语义信息。作者认为这些方法忽略了哈希学习过程中哈希码的判别性,这导致来自不同类别的哈希代不易区分,从而降低了最近邻检索的准确性与鲁棒性,因此提出了MBDE二.研究贡献在分类方面制定哈希函数学习,学习更具判别性的哈希码。学习异构数据内的共享结构,并保留用于哈原创 2021-06-16 22:49:52 · 326 阅读 · 1 评论 -
Graph Convolutional Network Hashing for Cross-Modal Retrieval---2019 IJCAI-19(西电)
一、Abstract本文设计了一个语义编码器作为教师模块来指导特征编码过程,也称为学生模块,用于语义信息开发。此外,利用GCN来探索数据点之间的内在相似性结构,这将有助于生成有区别的散列码。二、本文的贡献提出了一种新的基于图形卷积网络的跨模态哈希方法来缩小模态差距和提高跨模态检索。为了充分有效地挖掘语义信息,我们训练语义编码器发现语义相关性,它作为“教师模块”引导特征编码网络学习有区别的和语义丰富的特征。然后利用GCN进一步丰富语义结构特征,获得信标特征,进一步更新编码特征。三、作者为什么要使原创 2021-04-01 19:25:01 · 1082 阅读 · 7 评论 -
Learning Feature Representation and Partial Correlation for Multimodal Multi-Label Data---2020 IEEE
一、本文所解决的问题?在现有多模态数据集中,用户提供的注释有时不适合模型学习,并且会妨碍检索任务。(多标签数据集)为了解决这个问题,提出了一种具有区分性和噪声鲁棒性的跨模态检索方法,称为FLPCL(包括深度特征学习和部分相关学习),其目的是找到特定于模态的深层特征表示,其保留了多模态数据之间的相似性和区别信息。二、为什么有些标签不适合模型学习?例如图一所示的两幅图像,使用标签信息来进行直接监督,会将他们投影在潜在空间附近的位置,因为他们都具有相同的‘person’类别。然而,当我们用户使用‘horse原创 2021-03-31 19:31:40 · 297 阅读 · 0 评论 -
Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院
一、研究背景跨模态问题,图像–文本的双向检索严重依赖于每个图像-文本的联合嵌入学习以及相似性度量。很少有人同时探索单个模态中模态和语义相关性之间的对应。二、作者对本文的贡献1、提出了上下文感知注意力网络,可以从全局的角度基于给定的上下文来适应的选择信息片段。其中包括a:单个模态内的语义相关性 b:区域与单词之间的可能的对齐方式。2、提出了使用语义注意力来捕获模态内的潜在相关性。并且图片选定区域与单词对其的二阶注意是具有可解释性的。三、本文作者的动机在以往的研究中,很少有人关注单一模态中,模态之间原创 2021-03-22 11:04:59 · 4182 阅读 · 7 评论 -
Deep Supervised Cross-modal Retrieval ---2019CVPR
目录一、跨模态研究背景二、作者的动机三、实现方法四、损失函数五、本文作者的贡献六、实验结果消融实验复现代码(code)地址:一、跨模态研究背景跨模态检索旨在实现跨不同模态的灵活检索(例如,文本与图像)。它将一种类型的数据作为查询来检索另一种类型的相关数据。跨各种形式提供的搜索结果可以帮助用户获得关于目标事件或主题的全面信息。随着互联网上文本、图像和视频等不同类型媒体数据的快速增长,跨模式检索在现实应用中变得越来越重要,跨模态检索已经引起了学术界和工业界研究者的广泛关注。二、作者的动机跨模式检索是为原创 2021-03-15 22:00:25 · 787 阅读 · 0 评论
分享