论文-《MUREL: Multimodal Relational Reasoning for Visual Question Answering Remi》笔记

本文介绍了MuRel模型,一种用于真实图像VQA任务的多模态关系网络,能进行端到端推理。MuRel单元通过丰富的向量表示进行自动推理,同时模型通过迭代细化图像和文本的交互。与传统的注意力机制相比,MuRel在表示中融合了空间和语义环境,提高了推理能力。

重点翻译拓展

摘要:

        如今在涉及真是图像的VQA任务中,多模态注意力网络时性能最好的,但是这种简单的机制不足以对复杂的推理特征或者高层次的任务进行建模。因此,我们提出了MuRel,一个能在真实图像中学习端到端推理的多模态关系网络。我们的贡献主要有两个:一是引入了MuRel单元,一种通过丰富的向量表示来对问题和图像区域间的交互进行自动推理,和对成对结合区域关系进行建模的结构;二是合并MuRel单元到MuRel网络,,该网络逐渐细化了图像和文本的交互。

背景:

1.深度学习最近处理问题:

        最近,深度学习开始处理一些复杂的视觉推理问题,例如:关系检测(relationship detection)、目标识别(objection recognition)、多模态检索(multimodal retrieval)、抽象推理(abstract reasoning)、视觉因果(visual causality)、是绝对话(visual dialog)。

2.视觉推理:

        关于视觉推理这个研究主要是通过CLEVR数据集,这个数据集提供了一些需要推理的简单问题。其中处理CLEVR数据集比较好的模型有FiLM,MAC network。

3.真实数据的VQA:

        VQA研究最重要的一部分就是对两个空间向量的高层次关系进行表示,在目前的多模态融合机制里,最受欢迎的是二阶交互(second order interaction)或者是张量分解(tensor decomposion)。在VQA关系推理中,最常使用的推理框架是软注意力机制(soft attention),给定一个问题,模型可以标注每个区域的重要程度分数,并使用它们进行权重求和和池化来视觉表示。多重注意

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值