Cross-media Retrieval

最新推荐文章于 2023-03-09 20:14:53 发布

翻译最新推荐文章于 2023-03-09 20:14:53 发布 · 1.2k 阅读

·

1

·

论文阅读专栏收录该内容

26 篇文章

订阅专栏

本文探讨了跨模态检索的主要挑战，mediagap问题，以及解决这一问题的主流方法，如共同空间学习和跨模态相似度度量。文章还概述了多种具体方法，包括基于深度神经网络的方法，图正则化方法，度量学习方法，字典学习方法和跨媒体哈希方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Reference：

An Overview of Cross-media Retrieval: Concepts,Methodologies, Benchmarks and Challenges

（关于跨模态检索的概念、方法、主要挑战和开放性问题，包括数据集和实验结果的基准）

主要挑战：media gap

不同模态的表示特征不一致并且位于不同的特征空间中，主要挑战是度量它们之间的相似性。

当前的主流方法：common space learning methods

在共同空间中计算不同模态之间的相似性。同时，提出了跨模态相似性度量方法，通过分析已知数据关系直接计算跨模态相似度，而无需具体的共同空间。

大多数现有方法仅用于检索两种媒体类型（主要是图像和文本），但跨模态检索强调媒体类型的多样性。

共同空间学习and跨模态相似度度量

一、Definition of Cross-media Retrieval

两种模态类型： X Y

训练数据集：

n为训练集实例数量

测试数据集：

n为训练集实例数量

语义标签：

目标：计算跨模态的相似性

无监督方法：所有训练数据未标记

半监督方法：仅标记训练数据的一部分子集

全监督方法：所有训练数据标记

跨模态检索的代表性工作：

U：无监督方法 S：半监督方法 F：完全监督方法，R：涉及相关性反馈的方法

跨模态检索：

输入：image（sentence）+dataset 　　　　　输出：sentence（image）rank list

跨模态检索是跨文本，图像，视频，音频和3D模型等所有媒体类型的检索，其主要挑战和焦点是“media gap”问题。

二、Common Space Learning

跨模态检索的主流方法是Common Space Learning，因为表达相同语义的数据有潜在的关联，因此它们在共同高级语义空间（common high-level semantic space）中相近。

学习一个共同空间，并将不同媒体类型的数据投影到该空间以进行相似度测量。

七类现有方法：

(A) traditional statistical correlation analysis methods （传统的统计相关分析方法）

On basic model：

(B) DNN-based methods（以深度神经网络为基本模型）

On correlation modeling：

(C) cross-media graph regularization methods（采用图模型来表示复杂的跨模态相关性）

(D)metric learning methods (将跨模态相关性视为一组相似/不相似的约束)

(E) learning to rank methods（跨模态排名信息作为优化目标）

On property of common space：

(F) dictionary learning methods

（字典学习方法生成字典，学习的公共空间用于跨模态数据的稀疏系数）

(G) cross-media hashing methods（学习一个a common Hamming space 来加速检索）

A. Traditional Statistical Correlation Analysis Methods

通过优化统计值来学习线性投影矩阵

常用的基线方法：CCA DCCA：DNN与CCA结合，CCA的非线性扩展。

缺陷：1.仅通过线性投影很难完全模拟现实世界中跨模态数据的复杂相关性

2.大多数方法只能模拟两种媒体类型，但跨模态检索通常涉及两种以上的媒体类型

B. DNN-based Methods(深度神经网络)

跨模态检索中的深层体系结构主要包括两种方式。

1.第一种方式可以看作一个网络，不同媒体类型的输入通过相同的共享层

2.第二种方式包括在代码层中通过相关性约束耦合的子网

可考虑方法：GAN

C. Cross-media Graph Regularization Methods

图正则化可以描述跨模态数据的各种相关性，例如语义相关性，模态内相似性和模态间相似性。

缺陷：图构建过程通常导致高时间和空间复杂性

D. Metric Learning Methods

E. Learning to Rank Methods

F. Dictionary Learning Methods

G. Cross-media Hashing Methods

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。