Abstract
因为目前的场景图生成会物体对的视觉信息进行场景图生成,但因为物体对又很多种可能的表现,因此在predicate的类别中有非常大的类内不同性。例如:”man-eating-pizza, giraffe-eating-leaf“等。而类之间也有一定的类间相似性。例如:”man-holding-plate, man-eating-pizza“等。而这阻碍了现有的场景图生成模型获得鲁棒的用于预测关系的特征。
这篇文章认为,predicate类别固有的语义信息可以充当在语义空间类方面的元数据来缓解挑战。使用原型对齐的紧凑和独特的表示对实体/predicate进行建模,从而在公共嵌入空间中建立实体对和predicate之间的匹配,以便进行关系识别。
提出两个模块,**Prototype-guided Learning (PL)**引入帮助PE-Net高效的学习entity-predicate的匹配。**Prototype Regularization (PR)**缓解由谓词的语义重叠引起的不明确的实体谓词匹配。
Introduction
现有的SGG模型没有办法很好的获取relation紧凑的和具有区分性的特征。例如图1所示,对于Motif产生的relation表示,非常的离散且相交在一起。因此,它让现有的SGG模型很难预测非常好的决策边界来进行正确的predicate识别。因此可以将这个总结为两个方面的问题:1. 很高的类内相似度。2. 严重的类间相似度。
Intra-class variation
predicate的类内差异来自不同的subject-object对和同一sub-obj对但是物体的外观不同。因此,如果用sub-obj的联合特征来表示,不同的物体外观就会产生差别很大的特征。同时,不同类别的sub-obj对也会导致predicate的特征表示有很大变化。
Inter-class similarity
该问题来自长得相似但是实际关系不同的sub-obj对,例如上图中的a和c。
对于上述挑战,需要我们思考:
- 对于类内不同,如何获取类别固有的特征。
- 对于类间相似,如何推导出独特的表示,以有效地区分不同类之间的相似关系实例。
从直觉上来看,虽然不同的entity、predicate有不同的外观表现,但是它们的类别标签是相同的。因此可以从标签出发获取信息。
Method
首先用Faster-RCNN来进行物体检测并生成物体的特征,关系的初始特征则通过联合bbox来生成。
Prototype-based Embedding Network (PE-Net):生成sub、obj和pre的紧密的且具有区分性的特征。然后在common embedding空间中进行subject-object对和predicate之间的匹配。
Prototype-guided Learning(PL):帮助PE-Net学习entity-predicate的匹配。
Prototype Regularization (PR):增加类间的区分度,减轻predicate的语义重叠问题。
Prototype-based Embedding Network
该模块的构建可以分为两个步骤:
- Prototype-based Model来生产紧密且具有区分度的entity和predicate的表示。
- Prototype-guided的entity和predicate的匹配来进行关系识别。
Prototype-based Modeling
首先ts,to,tpt_s,t_o,t_pts,to,tp表示主语宾语和谓语的类别获得的词嵌入(通过GloVe获得)。Wsts,Wptp,WotoW_st_s,W_pt_p,W_ot_oWsts,Wptp,W