视觉理解论文系列(二)Heterogeneous Graph Learning for Visual Commonsense Reasoning

最新推荐文章于 2025-01-07 17:30:46 发布

原创

最新推荐文章于 2025-01-07 17:30:46 发布 · 781 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习 #计算机视觉

本文提出了HGL框架，通过视觉到答案和问题到答案的异构图学习，结合上下文投票机制，解决视觉语言任务中视觉域与语言域的高度对齐问题，尤其适用于视觉常识推理。实验表明，这种方法能有效捕捉特定语义信息，提升模型表现。

背景

本篇的工作来自中山大学梁晓丹组，论文被NeurIPS 2019接收。论文介绍到，视觉语言任务(visual-language task)的解决方案粗略地分成两大类型，一种是强大的端到端结构(end-to-end)，如Bert，bottom-up and top-down模型，用于学习更加具有鉴别性的特征表示；另一种是发掘视觉对象(visual objects)的内部联系(intra-relationship)，即构建同构图(homogeneous graph)的方式，对视觉对象之间的关系进行建模。
目前存在的方法的不足之处：难以满足VCR任务中需要视觉域与语言域的高度对齐这一需求。本文提出利用异构图学习，通过图内和图间的推理将视觉域-语言域桥接起来。

贡献

提出HGL框架，包含两个异构图模块VAHG(visual-to-answer heterogeneous graph和QAHG(question-to-answer heterogeneous graph),此外,针对缺乏标签的特定语义信息(如"rainy day")提出了一种上下文投票机制(contextual voted module)来捕捉这种特定的语义信息,作为图像中常规object特征的补充,为全局推理提供了一个新的视角.

框架

在这里插入图片描述
简要介绍:
通过resnet50提取的object特征与seq2seqEncoder(LSTM)处理的文本特征利用图学习进行contextualization,分别构建了VAHG与QAHG两个(跨域)异构图,两张异构图的输出最终通过全连接进行合并,之后送入到推理模块,模型最终的输出是一个四维向量(即四个选项的概率分数值) ,张量的流动如下图所示.
在这里插入图片描述
异构图模块的初始输入,其中 $X_a^{B*d}$