摘要
跨模态检索的核心方法就是通过寻找最大化相关的嵌入空间来缩减不同模态之间的鸿沟。本文提出了一个新的深度对抗网络度量学习方法(DAML),DAML将那些成对的标签数据映射到共享的潜在特征子空间。其中为了最大化利用模态之间的相关性,通过对抗网络引入额外的正则化。
The framework of DAML如上图所示
它包括四个部分,图片特征映射,文字特征映射,模态分类器,跨模态相似度量
提出的方法
1.有n个样本In,每个样本是成对的张量信息Vi和Ti构成,但它们是不能被直接比较的,为了能够特征直接比较,作者提出了(1)从训练样本中获取更多的判别信息(2)消除成对数据的不同模态之间的鸿沟。
2.深度对抗网络度量学习
同时模态内和模态间相似性度量和模态分类器的约束将学习到的子空间表示约束为具有区分性和形式不变性。将子空间学习过程分解为三个损失项:
1)利用对抗性损失来最小化来自两个不同模态的表示的两个未知分布之间的“模态差距”,以促进模态不变;
2)特征鉴别损失,它通过类别信息对模态内相似性进行建模,并确保学习的表示具有区别性;
3)特征相关损失,其使类内交叉模态样本之间的距离最小化并且使类间交叉模态样本之间的距离最大化。【我也还不太明白】
Adversarial loss
对抗网络中的判别器,映射特征来自图像label标记位01,映射特征来自文本label标记位10,对抗损失Ladv的定义如下
其中mi是每个实例的真实模态标签,然而D是每个实例生成的模态
Feature discrimination loss
该分类器将耦合图像和文本实例的预测特征作为训练数据,并生成每项语义类别的概率分布作为输出。
li是每个表示真正的label,预测的可能分布是Pi,
Feature correlation loss
l为1表明属于同一类别,为-1则情况相反,cgema为阈值,为了让模态内最小化,模态间最大化。
训练的优化方式如下:分为两步
算法伪代码如下图所示:
以下实验细节就暂不做讨论了,做一下本文的亮点总结:
亮点
1.对于跨模态检索,提出了新的方法DAML,旨在于学习公共子空间中模态内和模态间的表示。
2.将整个问题分解为3个loss损失项
(1)对抗损失,最小化模态鸿沟
(2)特征判别损失,学习表示具有判别性
(3)特征相关性损失,最小化模态内,最大化模态间