论文解读：MKVSE P1: Multimodal Knowledge Enhanced Visual-semantic Embedding for Image-text Retrieval

原创

已于 2024-11-02 11:16:23 修改 · 1.2k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #人工智能 #自然语言处理 #深度学习 #论文笔记

于 2024-10-29 21:09:40 首次发布

论文解读系列文章目录

文章目录

论文解读系列文章目录
一、场景概念图举个例子
二、Visual Genome 数据集是什么数据集
三、共现次数是什么
四、举个例子
五、文本词的路径相似度矩阵表示为 $A_t \in \mathbb{R}^{n_t \times n_t}$ ，图像对象的路径相似度矩阵表示为 $A_i \in \mathbb{R}^{n_i \times n_i}$ 。两个路径相似度矩阵如下。这句话如何理解，按理说应该要文本词和图像对象都在一个表中才可以吧
- - 为什么要分别计算两个相似度矩阵
六、使用 **WordNet** 的路径相似度 $s_p(\cdot, \cdot)$ 【4, 32】来表示模态内部的语义关系。这句什么意思
- - 路径相似度的计算
  - 在模态内部关系中的作用
七、WordNet 的路径相似度”和“ Natural Language ToolKit (NLTK)【4】中的“路径相似度”是一个东西吗
八、路径相似度 $s_p(\cdot, \cdot) = 1/(1 + d(\cdot, \cdot))$ ，其中 $d(\cdot, \cdot)$ 表示在“is-a”（上位词/下位词）分类中的两个词的最短路径距离。这句话什么意思
九、为什么dog到sofa距离是6 举个例子
十、因为它们可能会得出“人”和“狗”相似的结论，因为这两个词通常出现在同一图像或句子中。然而，MKG 在某种程度上可以解决此问题。请问如何解决的
十一、GCN举例说明
十二、尽管该方法性能较高，但跨注意力机制在推理过程中存在计算爆炸问题，因为需要对所有的图像和文本对进行计算，这在检索任务中不可忽视【7】。什么意思
十三、Frome等人【15】提出了一个基于嵌入的先驱方法，将图像特征和skip-gram词特征通过线性映射投影，并计算相似性。这里面的方法解释一下
十四、Faghri等人【14】提出了VSE++，通过使用在线困难负样本挖掘进一步提高了视觉-语义嵌入（VSE）的质量。什么意思
- - VSE++ 方法概述
十五、Li等人【24】提出了视觉语义推理网络（VSRN），解决当前图像表示中缺乏全局语义概念的问题，VSRN通过捕捉场景中的关键对象和语义概念生成增强的视觉表示。什么意思
十六、为了处理具有多重含义的多义实体，Song等人【43】提出了多义视觉-语义嵌入（PVSE），通过结合全局上下文和局部引导特征来计算实体的多个多样化表示。这两个多义实例嵌入网络在多实例学习框架中绑定并联合优化。什么意思
十七、Chen等人【7】提出了通用池化算子（GPO），能够自动为不同数据模态和特征提取器寻找最佳池化函数，无需手动调整，同时保持高效性和有效性。什么意思
十九、上述所有方法都仅依赖图像-文本对，忽略了图像和文本之间的先验知识。什么是图像和文本之间的先验知识
二十、Shi等人【41】通过考虑图像场景图中的语义概念共现对，构建了场景概念图（SCG）。在同一场景中共现的概念可以提供常识知识，用于发现其他语义相关概念。然后，SCG可以用于扩展更多的语义概念，从语义上增强图像表示。这几句话什么意思
二一、这一方法能否应用到电子商务领域的图文检索或者假冒伪劣产品识别
二二、Wang等人【46】提出了共识感知的视觉-语义嵌入（CVSE）模型，将共识信息纳入图像-文本匹配。通过计算来自图像描述语料库中的语义概念的统计共现关系，利用共识信息进行图像-文本匹配。
1. 研究背景
2. 论文贡献
3. 方法框架
4. 研究思路
5. 实验
6. 限制

一、场景概念图举个例子

场景概念图（SCG）可以通过一个简单的例子来理解。例如，在包含“厨房”场景的图像中，图像中可能出现的物体和概念有“冰箱”、“灶台”、“水槽”等。通过场景概念图，这些物体的共现关系会被捕捉到，从而识别出这属于厨房的场景。该图谱的构建会识别“厨房”这一标签以及该场景中经常同时出现的概念。这些共现的概念提供了图像中的常识知识，并帮助模型识别图像中的其他相关概念，进一步扩展图像的语义表示，使模型能够更加准确地进行图像-文本匹配。

二、Visual Genome 数据集是什么数据集

Visual Genome 数据集是一个大规模、丰富标注的图像数据集，主要用于计算机视觉和自然语言处理的跨模态任务，如图像-文本匹配、图像理解、场景识别等。该数据集由超过10万张图片组成，且每张图片都包含详细的标注信息，包括对象、属性、关系、区域描述等。这些标注为模型提供了图像内容的语义层次，支持对图像中各个元素的理解和推理。

Visual Genome 数据集的主要特点

对象和属性标注：每张图片中的对象（如“人”、“车”、“树”等）都被详细标注，并且还标注了对象的属性（如“红色的车”、“高大的树”），帮助模型理解对象的细节特征。
关系信息：数据集中还提供了对象之间的关系（例如“人-坐在-椅子上”或“狗-在-草地上”），这些信息对图像中的空间和语义关系建模有重要帮助。
区域描述：每个图像划分成多个区域，并配有局部描述（region captions），例如“一个人在打篮球”或“桌上有一盘食物”等。这些描述为图像内容提供了不同粒度的文本信息，支持更精确的图像理解。
问答标注：数据集还包括关于图片的问答对，这些问答对可用于训练和评估视觉问答（VQA）任务。

应用场景
Visual Genome 数据集广泛用于：

图像-文本检索：通过图像和描述文本的匹配，实现跨模态的检索。
视觉问答（VQA）：利用问答对，模型可以在给定图像的基础上生成答案。
图像语义分割和场景理解：利用对象和关系标注信息对图像内容进行更深层次的分析。

Visual Genome 数据集的丰富标注使其成为计算机视觉和自然语言处理领域的重要资源，为多模态任务提供了基础。

三、共现次数是什么

在上述内容中，共现次数指的是在图像和文本对中，同时出现的特定对象或词汇的统计频率。具体来说，给定的三元组 $I_i, O_i, T_i)$ 中包含图像 $I_i$ 、图像对象集合 $O_i$ 和文本描述 $T_i$ ，我们可以统计这些对象和词汇之间的共现情况：

共现矩阵 $A$ ：表示对象和词汇的共现关系，即在不同的图像-文本对中，特定的图像对象（如“狗”）和文本词汇（如“宠物”）共同出现的次数。矩阵 $A$ 的维度是 $(n_t + n_i) \times (n_t + n_i)$ ，其中 $n_t$ 是文本词汇数量， $n_i$ 是图像对象数量。
矩阵计算过程：通过遍历所有图像-文本三元组 $I_i, O_i, T_i)$ ，统计每个对象和词汇的共现频率，将其存储在矩阵 $A$ 的相应位置。这一矩阵在图像-文本检索任务中，用来判断哪些对象和词汇有较强的共现关系，从而利用这些关系在跨模态检索中提升匹配准确性。
共现关系的意义：共现关系揭示了不同模态（图像和文本）之间的隐含语义关联，比如在包含“狗”的图像中，描述中往往可能包含“宠物”或“动物”这样的词汇。这些关系帮助构建语义空间，在图像-文本匹配时提供关联性信息。

四、举个例子

举个例子来解释共现次数和共现关系：

假设我们有一些图像-文本对，比如以下两个三元组 $I_1, O_1, T_1)$ 和 $I_2, O_2, T_2)$ ：

三元组 1：
- 图像 $I_1$ ：显示一只狗在草地上奔跑。
- 图像对象集合 $O_1$ ：{狗，草地}
- 文本描述 $T_1$ ：“一只狗在公园的草地上玩耍。”
三元组 2：
- 图像 $I_2$ ：显示一只猫坐在沙发上。
- 图像对象集合 $O_2$ ：{猫，沙发}
- 文本描述 $T_2$ ：“一只宠物猫在沙发上休息。”

在这种情况下，我们可以统计图像对象和文本词汇的共现次数。假设我们关注的词汇有“狗”、“草地”、“猫”和“沙发”。

共现矩阵 $A$ 的构建：
- 在第一个三元组中，“狗”出现在图像对象集合 $O_1$ 中，并且“狗”和“草地”共同出现一次。因此，在共现矩阵 $A$ 中， $(狗, 草地)$ 的共现次数会加一。
- 同样，在第二个三元组中，“猫”和“沙发”共同出现一次，因此在矩阵中， $(猫, 沙发)$ 的共现次数加一。

在多个图像-文本对的情况下，随着统计的三元组数量增加，这种共现关系可以更频繁地出现。例如，如果有许多图像-文本对中“狗”和“草地”经常一起出现，那么它们的共现次数会较高，从而反映出它们之间的强语义关联性。这一信息在检索任务中就可以用来判断，比如在描述“草地”的文本中，模型更可能检索出包含“狗”的图像，因为二者在数据集中经常一起出现。