背景
文章提到,事实上,人类通过探索物理世界,自然而然地在无人监督的情况下学习常识,我们希望机器也能这样模仿。一个成功的例子便是NLP中词向量的学习,例如,一个词的表示XXX能够通过预测它的上下文词语YYY,P(Y∣X)P(Y|X)P(Y∣X)来学习到。
然而,在视觉任务中,这一情形却有不同。原因是一旦一张图像形成,图像之中的各种物体为何构成这个上下文情景是不得而知的,这将导致“观察偏差”,举例,如果键盘(keyboard)和鼠标(mouse)被观察到与桌子(table)出现的频率比其他物体要高,那么网络在学习过程中可能会错误地认为keyboard和mouse是table的属性而非属于computer。
因此,判断两个物体的联系,不能仅仅通过共现概率P(Y∣X)P(Y|X)P(Y∣X)来简单处理。
idea

判断物体X、Y的关联关系,需要人为施加一定的“因果干预”,即P(Y∣do(X))P(Y|do(X))P(Y∣do(X))。怎么执行这个dododo操作是论文的一个重点。简单来说,就是借助一些场景之外的物体加入的情况下,计算X、Y之间的联系。其中,所有能够加入到场景之中的物体zzz构成了混淆因子字典ZZZ。以COCO数据集为例,共有80个labels,每个类别标签被表示成d维向量,故字典大小为Z=[z1,z2,...,zN]Z=[z_1,z_2,...,z_N]Z=

该文章探讨了在视觉任务中,如何利用因果理论克服观察偏差。通过引入“因果干预”P(Y∣do(X)),以改善仅依赖共现概率P(Y∣X)造成的错误关联。提出VCR-CNN架构,包括自预测器和上下文预测器,旨在增强模型的鲁棒性和减少观测偏见。
最低0.47元/天 解锁文章
1178

被折叠的 条评论
为什么被折叠?



