《Deep adversarial metric learning for cross-modal retrieval》论文学习

最新推荐文章于 2024-10-08 21:12:43 发布

waiall

最新推荐文章于 2024-10-08 21:12:43 发布

阅读量717

点赞数 2

分类专栏： java 文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/uestc_huhu/article/details/114984584

版权

java 专栏收录该内容

28 篇文章

订阅专栏

摘要

跨模态检索的核心方法就是通过寻找最大化相关的嵌入空间来缩减不同模态之间的鸿沟。本文提出了一个新的深度对抗网络度量学习方法（DAML），DAML将那些成对的标签数据映射到共享的潜在特征子空间。其中为了最大化利用模态之间的相关性，通过对抗网络引入额外的正则化。
在这里插入图片描述
The framework of DAML如上图所示
它包括四个部分，图片特征映射，文字特征映射，模态分类器，跨模态相似度量

提出的方法

1.有n个样本In,每个样本是成对的张量信息Vi和Ti构成，但它们是不能被直接比较的，为了能够特征直接比较，作者提出了（1）从训练样本中获取更多的判别信息（2）消除成对数据的不同模态之间的鸿沟。
2.深度对抗网络度量学习
同时模态内和模态间相似性度量和模态分类器的约束将学习到的子空间表示约束为具有区分性和形式不变性。将子空间学习过程分解为三个损失项：
1）利用对抗性损失来最小化来自两个不同模态的表示的两个未知分布之间的“模态差距”，以促进模态不变；
2）特征鉴别损失，它通过类别信息对模态内相似性进行建模，并确保学习的表示具有区别性；
3）特征相关损失，其使类内交叉模态样本之间的距离最小化并且使类间交叉模态样本之间的距离最大化。【我也还不太明白】

Adversarial loss
对抗网络中的判别器，映射特征来自图像label标记位01，映射特征来自文本label标记位10，对抗损失Ladv的定义如下
在这里插入图片描述
其中mi是每个实例的真实模态标签，然而D是每个实例生成的模态

Feature discrimination loss
在这里插入图片描述
该分类器将耦合图像和文本实例的预测特征作为训练数据，并生成每项语义类别的概率分布作为输出。
li是每个表示真正的label，预测的可能分布是Pi，

Feature correlation loss

l为1表明属于同一类别，为-1则情况相反，cgema为阈值，为了让模态内最小化，模态间最大化。
在这里插入图片描述
训练的优化方式如下：分为两步