文章汉化系列目录
摘要
当代视觉描述生成模型常常出现“幻觉”对象,即生成的描述中包含场景中实际上不存在的对象,这通常是由于视觉误分类或过度依赖先验信息,导致视觉信息和目标词汇之间的语义不一致。最常见的解决方法是鼓励描述生成模型动态地将生成的对象词汇或短语与图像的适当区域进行链接,即“基于图像的描述生成”(GIC)。然而,GIC 利用一个辅助任务(对象定位),并未解决对象幻觉的关键问题,即语义不一致。在本文中,我们从一个新的角度出发:利用视觉和语言模态之间的语义一致性。具体而言,我们为 GIC 提出了共识图表示学习框架(CGRL),将共识表示引入基于图像的描述生成流程。共识表示通过对齐视觉图(如场景图)和语言图来学习,对齐考虑图中的节点和边。借助对齐的共识,描述生成模型能够同时捕捉到正确的语言特征和视觉相关性,从而进一步对图像的合适区域进行定位。我们验证了该模型的有效性,在 Flickr30k 实体数据集上对象幻觉显著减少(-9% CHAIRi)。此外,我们的 CGRL 还通过多个自动评估指标和人工评估进行了验证,结果表明该方法能够同时提升图像描述性能(+2.9 Cider)和定位性能(+2.3 F1LOC)。
引言
近年来,图像描述生成模型在许多基准数据集上取得了令人印象深刻,甚至超越人类的表现(He et al. 2019; Shuster et al. 2019; Deshpande et al. 2019)。然而,进一步的量化分析表明,这些模型仍可能生成“幻觉”描述(Zhou et al. 2019; Ma et al. 2019),例如包含不存在的对象词汇。先前研究(Rohrbach et al. 2018)认为,这种描述幻觉问题是由于模型从数据集中学习到的偏差或不恰当的视觉-文本相关性导致的,即视觉与语言域之间的语义不一致。因此,提出了“基于图像的描述生成”(GIC)来解决该问题。GIC 通过引入一个新的辅助任务,使描述生成模型在生成描述时将对象词汇与对应的图像区域进行关联。该辅助定位任务提供了视觉和文本模态之间的额外标签,可用于消除偏差并重新构建两种模态之间的正确关联。
然而,GIC 可能并不是解决幻觉问题的真正救星。首先,仅仅定位对象词汇远未能彻底解决问题,因为模型仍可能产生对象属性和对象之间关系的幻觉。当然,我们可以引入更多的定位任务来缓解这些新问题,但这将付出巨大的代价,且可能引入更难检测的新偏差。其次,仅靠定位标注很难完全建立正确的相关性,因为图像和标注的描述并不总是一致(?)。众所周知,这种不一致在现实生活中经常发生,但人类具有推理能力,能够在当前不完美的信息与已有经验之间总结或推导出共识性知识。这种能力使我们在人类高层次推理方面优于机器,也是现代 AI 最宝贵的能力。因此,增强模型的推理能力比单纯地增加标注更为重要。

图1。展示了共识如何促进带有定位的图像描述生成的示例。粉色、绿色和蓝色分别代表对象、关系和属性。
基于这一见解,我们提出了一种模仿人类推

最低0.47元/天 解锁文章
1697

被折叠的 条评论
为什么被折叠?



