论文记录：Visual Relationship Detection with Language Priors [VR-LP] (ECCV-16)

最新推荐文章于 2024-06-11 09:46:35 发布

chenhch8

最新推荐文章于 2024-06-11 09:46:35 发布

阅读量1.4k

点赞数 2

CC 4.0 BY-SA版权

文章标签：论文阅读

本文链接：https://blog.youkuaiyun.com/deepinC/article/details/86419007

本文介绍了一篇ECCV-16的论文，研究如何利用语言先验进行视觉关系检测。论文首次提出将对象和谓词分开训练，解决传统Visual Phrases方法在大规模和zero-shot场景中的局限性。提出了VRD数据库，丰富了关系类型。模型包括视觉外观模块和语言模块，但忽略了空间信息和多关系可能性。实验表明，尽管存在局限，但该模型仍优于传统方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（这里只是记录了论文的一些内容以及自己的一点点浅薄的理解，具体实验尚未恢复。由于本人新人一枚，若有错误以及不足之处，还望不吝赐教）

总结

contributions:
- 该论文是第一篇提出将 relationship 的 objects 和 predicates 分开独立看待，即 “train visual models for objects and predicates individually and later combines them together to predict multiple relationships per image”，解决了传统的基于 Visual Phrases 方法的所需 ① 分类器数量庞大（ $O(N^2K)$ ）和 ② 由于 relationships 的 long-tail 分布所带来的有些 relationship type 对应的训练样本少，从而使得对应的分类器训练不充分这两种典型的问题。由于存在这两种问题，基于 Visual Phrases 方法的伸缩性非常差，仅适用于小规模场景却无法适用于大规模场景，且完全无法用于 zero-shot 场景
- 该论文提出了 VRD 数据库，该数据库解决了传统的用于视觉关系检测数据库的平均每个实体所涉及的关系不充分（即实体对之间的关系不丰富）/ relationship type 类型少等问题 / 谓词具有歧义性（无对比 VG），丰富了实体对间的关系且关系的种类也变得丰富（如：verbs, spatial, prepositions, comparative, actions, preposition phrase等）。具体对比信息如下：
  
  VRD 统计信息：5000张图片，100种实体类别，70种 predicate 种类，共37993个实例化的 relationship 和6672中未实例的 relationship type，平均每种实体类别具有24.25种关系
该论文是第一篇提出将 relationship 的 objects 和 predicates 分开独立看待，故其实验效果，从现在来看，还是很不理想，但却明显超过了传统的基于 Visual Phrases 的方法了。论文提出的模型仅利用了 relationships 的视觉外观信息和对应的语义信息，且是在单关系的假设下进行的，即默认每两个实例化后的 object 至多仅存在一种关系
缺点
- 仅考虑了 relationships 之间的语义相关性，而忽略了内部的 objects 和 predicate 之间存在的语义关联性
- 仅考虑了实体对之间至多仅存在一种关系的可能性，而忽略了可能存在多种关系这种情况
- 未利用到空间位置信息

模型框架

在这里插入图片描述

两个模块
1. Visual Appearance Module: 用于提取 the appearance of visual relationships，具体做法是先训练一个 VGG 识别并提取图片上的 objects 以及其视觉特征。待第一个 VGG 训练完后，就变成 untrainable，然后才开始训练另一个 VGG 用于提取 predicate 的视觉特征，即 object pair 所在区域的并集（union）。模型对应公式为：
  $V(R_{<i,k,j>}, \Theta | <O_1,O_2>) = P_i(O_1) (\mathbf{z}_k^T \text{CNN}(O_1,O_2) + s_k) P_j(O_2) \in R \tag{1}$
  其中 $Θ∈RK×(d+1)\Theta \in R^{K×(d+1)}$ 是要训练的参数集，其第 $k$ 行表示第 $k$ 个 predicate 所对应式中参数 $zk∈Rd,sk∈R}\{\mathbf{z}_k \in R^d, s_k \in R\}$ （ $(zkT,sk)(\mathbf{z}_k^T, s_k)$ 为第 $k$ 个 predicate 对应的视觉 embedding），其中 $K$ 是 predicate的数量（该参数集属于第二个 VGG，在训练第二个 VGG 时，第一个 VGG 已经训练结束，变成 untrainable，所以公式（1）中并无第一个 VGG 所需的训练参数）。