文章目录
来源:Unbiased Scene Graph Generation from Biased Training
注:下文出现的SGG是场景图生成的意思
1. 摘要
如今的场景图生成离应用还有很远,主要是因为存在训练中的偏差,如关系表达模糊,举个例子:人在沙滩上行走/坐在沙滩上/躺在沙滩上
等复杂关系简单归结为人在沙滩上
。
传统的消除偏差的方法无法区分好的和坏的偏差,如:
- 外部良好的背景知识:
人读书
而不是人吃书
; - 坏的长尾偏差:
在...后面
和在...前面
统一被归类为在...旁边
。
作者因此提出了一个新的模型,模型步骤如下:
- 构建一个因果图,并用该图进行传统的有偏训练;
- 从训练后的因果图中提取反事实因果关系,以推断出应该被删除的不良偏差(使用 总直接影响(Total Direct Effect) 作为最终预测分数);
该模型可以应用到不同的场景图生成模型以进行无偏预测。
2. 介绍
作者在这里解释了当今场景图生成所遇到的一个关键问题:
- 下图(c)中显示:对于所生成的关系
near, on, has
,给我们提供信息量不够,我们不知道具体表示什么意思; - 下图(b)中显示:我们的训练数据本身就有偏差。例子:如果一个模型在训练期间预测
on
的次数是预测stand on
的1000倍以上,那么在测试期间,前者更有可能胜过后者。
因此我们需要将细粒度关系和模糊的关系区分开来。
有偏见的注释也不是一无是处:大多数有偏见的注释可以帮助模型学习良好的上下文先验知识,可以过滤掉不必要的信息。不必要的信息如:苹果在公园停车
以及苹果戴着帽子
。
作者认为对于消除偏差主要是要让机器识别“主要影响”和“次要影响”,借此提出了 “反事实因果关系”。
- 先对原始图片特征进行有偏训练,如图(a):预测出来的可能性如右边所示,分数最高是
on
,因此关系为on
。与此同时还有其他的预测,这些预测可能有错,但是为我们过滤掉大量不合理的选项。 - 然后生成该图片的反事实场景——也就是把图片特征中出现的物体都覆盖一层掩膜,如图(b)。然后和原始场景进行对比,从而得出最后的预测(具体如下文)。
下图(a)上面部分是作者所提出的事实因果图(左)与反事实因果图(右)。作者称这一技术为总直接影响 Total Direct Effect (TDE)
。
以因果图中的Y
为例,可以看到有三个箭头指向它,分别是X->Y I->Y Z->Y
,表示Y
是由X Y Z
共同引起的组合效应。作者提到X