文章汉化系列目录
摘要
当代的视觉图像描述模型常常会“幻想”出图像中实际上并不存在的物体,这主要是由于视觉误分类或过度依赖先验知识,导致视觉信息与目标词汇之间的语义不一致。解决这一问题的最常见方法是鼓励描述模型动态地将生成的物体词或短语与图像的适当区域关联起来,即基于定位的图像描述(Grounded Image Captioning, GIC)。然而,GIC使用的辅助任务(物体定位)并没有解决物体幻觉的关键问题,即语义不一致性。本文从一个新颖的角度来看待这个问题:利用视觉和语言模态之间的语义一致性。具体而言,我们提出了基于共识图表示学习框架(Consensus Graph Representation Learning, CGRL),该框架将共识表示引入到基于定位的图像描述流程中。共识通过对齐视觉图(如场景图)与语言图来学习,考虑图中的节点和边。在对齐的共识帮助下,描述模型可以同时捕捉到正确的语言特征和视觉相关性,从而进一步定位适当的图像区域。我们在Flickr30k Entities数据集上验证了模型的有效性,发现物体幻觉显著减少(-9% CHAIRi)。此外,我们的CGRL也通过多个自动评估指标和人工评估进行了验证,结果表明该方法可以同时提升图像描述性能(+2.9 Cider)和定位精度(+2.3 F1LOC)。
引言
近年来,图像描述模型在许多基准数据集上取得了令人印象深刻甚至超越人类的表现(He et al. 2019;Shuster et al. 2019;Deshpande et al. 2019)。然而,进一步的定量分析表明,这些模型往往会生成幻觉描述(Zhou et al. 2019;Ma et al. 2019),例如虚构的物体词。以往的研究(Rohrbach et al. 2018)认为,这种描述幻觉问题是由数据集中学习到的偏倚或不恰当的视觉-文本关联所导致的,即视觉和语言领域之间的语义不一致。因此,提出了基于定位的图像描述(Grounded Image Captioning, GIC)方法,通过引入一个新的辅