【论文笔记】基于有偏训练的无偏场景图生成


来源:Unbiased Scene Graph Generation from Biased Training


注:下文出现的SGG是场景图生成的意思

1. 摘要

如今的场景图生成离应用还有很远,主要是因为存在训练中的偏差,如关系表达模糊,举个例子:人在沙滩上行走/坐在沙滩上/躺在沙滩上等复杂关系简单归结为人在沙滩上

传统的消除偏差的方法无法区分好的和坏的偏差,如:

  • 外部良好的背景知识:人读书而不是人吃书
  • 坏的长尾偏差:在...后面在...前面统一被归类为在...旁边

作者因此提出了一个新的模型,模型步骤如下:

  1. 构建一个因果图,并用该图进行传统的有偏训练;
  2. 从训练后的因果图中提取反事实因果关系,以推断出应该被删除的不良偏差(使用 总直接影响(Total Direct Effect) 作为最终预测分数);

该模型可以应用到不同的场景图生成模型以进行无偏预测。


2. 介绍

作者在这里解释了当今场景图生成所遇到的一个关键问题:

  • 下图(c)中显示:对于所生成的关系 near, on, has,给我们提供信息量不够,我们不知道具体表示什么意思;
  • 下图(b)中显示:我们的训练数据本身就有偏差。例子:如果一个模型在训练期间预测on的次数是预测stand on的1000倍以上,那么在测试期间,前者更有可能胜过后者。
    在这里插入图片描述

因此我们需要将细粒度关系和模糊的关系区分开来。

有偏见的注释也不是一无是处:大多数有偏见的注释可以帮助模型学习良好的上下文先验知识,可以过滤掉不必要的信息。不必要的信息如:苹果在公园停车以及苹果戴着帽子


作者认为对于消除偏差主要是要让机器识别“主要影响”和“次要影响”,借此提出了 “反事实因果关系”

  • 先对原始图片特征进行有偏训练,如图(a):预测出来的可能性如右边所示,分数最高是on,因此关系为on。与此同时还有其他的预测,这些预测可能有错,但是为我们过滤掉大量不合理的选项。
  • 然后生成该图片的反事实场景——也就是把图片特征中出现的物体都覆盖一层掩膜,如图(b)。然后和原始场景进行对比,从而得出最后的预测(具体如下文)。

在这里插入图片描述
下图(a)上面部分是作者所提出的事实因果图(左)与反事实因果图(右)。作者称这一技术为总直接影响 Total Direct Effect (TDE)

以因果图中的Y为例,可以看到有三个箭头指向它,分别是X->Y I->Y Z->Y,表示Y是由X Y Z共同引起的组合效应。作者提到X

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值