23-CVPR-Prototype-based Embedding Network for Scene Graph Generation 学习笔记

最新推荐文章于 2025-08-04 22:08:04 发布

健身的程序猿

最新推荐文章于 2025-08-04 22:08:04 发布

阅读量1k

点赞数 15

CC 4.0 BY-SA版权

文章标签：原型模式 embedding 学习

本文链接：https://blog.youkuaiyun.com/weixin_43508459/article/details/141167839

Abstract

因为目前的场景图生成会物体对的视觉信息进行场景图生成，但因为物体对又很多种可能的表现，因此在predicate的类别中有非常大的类内不同性。例如：”man-eating-pizza, giraffe-eating-leaf“等。而类之间也有一定的类间相似性。例如：”man-holding-plate, man-eating-pizza“等。而这阻碍了现有的场景图生成模型获得鲁棒的用于预测关系的特征。

这篇文章认为，predicate类别固有的语义信息可以充当在语义空间类方面的元数据来缓解挑战。使用原型对齐的紧凑和独特的表示对实体/predicate进行建模，从而在公共嵌入空间中建立实体对和predicate之间的匹配，以便进行关系识别。

提出两个模块，**Prototype-guided Learning (PL)**引入帮助PE-Net高效的学习entity-predicate的匹配。**Prototype Regularization (PR)**缓解由谓词的语义重叠引起的不明确的实体谓词匹配。

Introduction

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现有的SGG模型没有办法很好的获取relation紧凑的和具有区分性的特征。例如图1所示，对于Motif产生的relation表示，非常的离散且相交在一起。因此，它让现有的SGG模型很难预测非常好的决策边界来进行正确的predicate识别。因此可以将这个总结为两个方面的问题：1. 很高的类内相似度。2. 严重的类间相似度。

Intra-class variation

predicate的类内差异来自不同的subject-object对和同一sub-obj对但是物体的外观不同。因此，如果用sub-obj的联合特征来表示，不同的物体外观就会产生差别很大的特征。同时，不同类别的sub-obj对也会导致predicate的特征表示有很大变化。

Inter-class similarity

该问题来自长得相似但是实际关系不同的sub-obj对，例如上图中的a和c。

对于上述挑战，需要我们思考：