Cross-media Retrieval

本文探讨了跨模态检索的主要挑战,mediagap问题,以及解决这一问题的主流方法,如共同空间学习和跨模态相似度度量。文章还概述了多种具体方法,包括基于深度神经网络的方法,图正则化方法,度量学习方法,字典学习方法和跨媒体哈希方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Reference:

An Overview of Cross-media Retrieval: Concepts,Methodologies, Benchmarks and Challenges

(关于跨模态检索的概念、方法、主要挑战和开放性问题,包括数据集和实验结果的基准)

主要挑战:media gap

不同模态的表示特征不一致并且位于不同的特征空间中,主要挑战是度量它们之间的相似性。

当前的主流方法:common space learning methods

在共同空间中计算不同模态之间的相似性。同时,提出了跨模态相似性度量方法,通过分析已知数据关系直接计算跨模态相似度,而无需具体的共同空间。

大多数现有方法仅用于检索两种媒体类型(主要是图像和文本),但跨模态检索强调媒体类型的多样性。

共同空间学习and跨模态相似度度量

一、Definition of Cross-media Retrieval

两种模态类型: XX YY

训练数据集:

n为训练集实例数量

测试数据集:

n为训练集实例数量

语义标签:

目标:计算跨模态的相似性

无监督方法:所有训练数据未标记

半监督方法:仅标记训练数据的一部分子集

全监督方法:所有训练数据标记

跨模态检索的代表性工作:

U:无监督方法 S:半监督方法 F:完全监督方法,R:涉及相关性反馈的方法

跨模态检索:

输入:image(sentence)+dataset      输出:sentence(image)rank list

跨模态检索是跨文本,图像,视频,音频和3D模型等所有媒体类型的检索,其主要挑战和焦点是“media gap”问题。

二、Common Space Learning

跨模态检索的主流方法是Common Space Learning,因为表达相同语义的数据有潜在的关联,因此它们在共同高级语义空间(common high-level semantic space)中相近。

学习一个共同空间,并将不同媒体类型的数据投影到该空间以进行相似度测量。

七类现有方法:

(A) traditional statistical correlation analysis methods (传统的统计相关分析方法)

On basic model:

(B) DNN-based methods(以深度神经网络为基本模型)

On correlation modeling:

(C) cross-media graph regularization methods(采用图模型来表示复杂的跨模态相关性)

(D)metric learning methods (将跨模态相关性视为一组相似/不相似的约束)

(E) learning to rank methods(跨模态排名信息作为优化目标)

On property of common space:

(F) dictionary learning methods

(字典学习方法生成字典,学习的公共空间用于跨模态数据的稀疏系数)

(G) cross-media hashing methods(学习一个a common Hamming space 来加速检索)

 

A. Traditional Statistical Correlation Analysis Methods

通过优化统计值来学习线性投影矩阵

常用的基线方法:CCA DCCA:DNN与CCA结合,CCA的非线性扩展。

缺陷:1.仅通过线性投影很难完全模拟现实世界中跨模态数据的复杂相关性

2.大多数方法只能模拟两种媒体类型,但跨模态检索通常涉及两种以上的媒体类型

B. DNN-based Methods(深度神经网络)

跨模态检索中的深层体系结构主要包括两种方式。

1.第一种方式可以看作一个网络,不同媒体类型的输入通过相同的共享层

2.第二种方式包括在代码层中通过相关性约束耦合的子网

可考虑方法:GAN

C. Cross-media Graph Regularization Methods

图正则化可以描述跨模态数据的各种相关性,例如语义相关性,模态内相似性和模态间相似性。

缺陷:图构建过程通常导致高时间和空间复杂性

D. Metric Learning Methods

E. Learning to Rank Methods

F. Dictionary Learning Methods

G. Cross-media Hashing Methods

基于对抗的跨媒体检索Cross-modal retrieval aims to enable flexible retrieval experience across different modalities (e.g., texts vs. images). The core of crossmodal retrieval research is to learn a common subspace where the items of different modalities can be directly compared to each other. In this paper, we present a novel Adversarial Cross-Modal Retrieval (ACMR) method, which seeks an effective common subspace based on adversarial learning. Adversarial learning is implemented as an interplay between two processes. The first process, a feature projector, tries to generate a modality-invariant representation in the common subspace and to confuse the other process, modality classifier, which tries to discriminate between different modalities based on the generated representation. We further impose triplet constraints on the feature projector in order to minimize the gap among the representations of all items from different modalities with same semantic labels, while maximizing the distances among semantically different images and texts. Through the joint exploitation of the above, the underlying cross-modal semantic structure of multimedia data is better preserved when this data is projected into the common subspace. Comprehensive experimental results on four widely used benchmark datasets show that the proposed ACMR method is superior in learning effective subspace representation and that it significantly outperforms the state-of-the-art cross-modal retrieval methods.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值