论文解读:MKVSE P1: Multimodal Knowledge Enhanced Visual-semantic Embedding for Image-text Retrieval

论文解读系列文章目录


文章目录


一、场景概念图举个例子

场景概念图(SCG)可以通过一个简单的例子来理解。例如,在包含“厨房”场景的图像中,图像中可能出现的物体和概念有“冰箱”、“灶台”、“水槽”等。通过场景概念图,这些物体的共现关系会被捕捉到,从而识别出这属于厨房的场景。该图谱的构建会识别“厨房”这一标签以及该场景中经常同时出现的概念。这些共现的概念提供了图像中的常识知识,并帮助模型识别图像中的其他相关概念,进一步扩展图像的语义表示,使模型能够更加准确地进行图像-文本匹配。

二、Visual Genome 数据集是什么数据集

Visual Genome 数据集是一个大规模、丰富标注的图像数据集,主要用于计算机视觉和自然语言处理的跨模态任务,如图像-文本匹配、图像理解、场景识别等。该数据集由超过10万张图片组成,且每张图片都包含详细的标注信息,包括对象、属性、关系、区域描述等。这些标注为模型提供了图像内容的语义层次,支持对图像中各个元素的理解和推理。

Visual Genome 数据集的主要特点

  1. 对象和属性标注:每张图片中的对象(如“人”、“车”、“树”等)都被详细标注,并且还标注了对象的属性(如“红色的车”、“高大的树”),帮助模型理解对象的细节特征。

  2. 关系信息:数据集中还提供了对象之间的关系(例如“人-坐在-椅子上”或“狗-在-草地上”),这些信息对图像中的空间和语义关系建模有重要帮助。

  3. 区域描述:每个图像划分成多个区域,并配有局部描述(region captions),例如“一个人在打篮球”或“桌上有一盘食物”等。这些描述为图像内容提供了不同粒度的文本信息,支持更精确的图像理解。

  4. 问答标注:数据集还包括关于图片的问答对,这些问答对可用于训练和评估视觉问答(VQA)任务。

应用场景
Visual Genome 数据集广泛用于:

  • 图像-文本检索:通过图像和描述文本的匹配,实现跨模态的检索。
  • 视觉问答(VQA):利用问答对,模型可以在给定图像的基础上生成答案。
  • 图像语义分割和场景理解:利用对象和关系标注信息对图像内容进行更深层次的分析。

Visual Genome 数据集的丰富标注使其成为计算机视觉和自然语言处理领域的重要资源,为多模态任务提供了基础。

三、共现次数是什么

在上述内容中,共现次数指的是在图像和文本对中,同时出现的特定对象或词汇的统计频率。具体来说,给定的三元组 ( I i , O i , T i ) (I_i, O_i, T_i) (Ii,Oi,Ti) 中包含图像 I i I_i Ii、图像对象集合 O i O_i Oi 和文本描述 T i T_i Ti,我们可以统计这些对象和词汇之间的共现情况:

  • 共现矩阵 A A A:表示对象和词汇的共现关系,即在不同的图像-文本对中,特定的图像对象(如“狗”)和文本词汇(如“宠物”)共同出现的次数。矩阵 A A A 的维度是 ( n t + n i ) × ( n t + n i ) (n_t + n_i) \times (n_t + n_i) (nt+ni)×(nt+ni),其中 n t n_t nt 是文本词汇数量, n i n_i ni 是图像对象数量。

  • 矩阵计算过程:通过遍历所有图像-文本三元组 ( I i , O i , T i ) (I_i, O_i, T_i) (Ii,Oi,Ti),统计每个对象和词汇的共现频率,将其存储在矩阵 A A A 的相应位置。这一矩阵在图像-文本检索任务中,用来判断哪些对象和词汇有较强的共现关系,从而利用这些关系在跨模态检索中提升匹配准确性。

  • 共现关系的意义:共现关系揭示了不同模态(图像和文本)之间的隐含语义关联,比如在包含“狗”的图像中,描述中往往可能包含“宠物”或“动物”这样的词汇。这些关系帮助构建语义空间,在图像-文本匹配时提供关联性信息。

四、举个例子

举个例子来解释共现次数和共现关系:

假设我们有一些图像-文本对,比如以下两个三元组 ( I 1 , O 1 , T 1 ) (I_1, O_1, T_1) (I1,O1,T1) ( I 2 , O 2 , T 2 ) (I_2, O_2, T_2) (I2,O2,T2)

  1. 三元组 1

    • 图像 I 1 I_1 I1:显示一只狗在草地上奔跑。
    • 图像对象集合 O 1 O_1 O1:{狗,草地}
    • 文本描述 T 1 T_1 T1:“一只狗在公园的草地上玩耍。”
  2. 三元组 2

    • 图像 I 2 I_2 I2:显示一只猫坐在沙发上。
    • 图像对象集合 O 2 O_2 O2:{猫,沙发}
    • 文本描述 T 2 T_2 T2:“一只宠物猫在沙发上休息。”

在这种情况下,我们可以统计图像对象和文本词汇的共现次数。假设我们关注的词汇有“狗”、“草地”、“猫”和“沙发”。

  • 共现矩阵 A A A 的构建:
    • 在第一个三元组中,“狗”出现在图像对象集合 O 1 O_1 O1 中,并且“狗”和“草地”共同出现一次。因此,在共现矩阵 A A A 中, ( 狗 , 草地 ) (狗, 草地) (,草地) 的共现次数会加一。
    • 同样,在第二个三元组中,“猫”和“沙发”共同出现一次,因此在矩阵中, ( 猫 , 沙发 ) (猫, 沙发) (,沙发) 的共现次数加一。

在多个图像-文本对的情况下,随着统计的三元组数量增加,这种共现关系可以更频繁地出现。例如,如果有许多图像-文本对中“狗”和“草地”经常一起出现,那么它们的共现次数会较高,从而反映出它们之间的强语义关联性。这一信息在检索任务中就可以用来判断,比如在描述“草地”的文本中,模型更可能检索出包含“狗”的图像,因为二者在数据集中经常一起出现。

五、文本词的路径相似度矩阵表示为 A t ∈ R n t × n t A_t \in \mathbb{R}^{n_t \times n_t} AtRnt×nt,图像对象的路径相似度矩阵表示为 A i ∈ R n i × n i A_i \in \mathbb{R}^{n_i \times n_i} AiRni×ni。两个路径相似度矩阵如下。这句话如何理解,按理说应该要文本词和图像对象都在一个表中才可以吧

这句话中的两个路径相似度矩阵 A t A_t At A i A_i Ai

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值