Learning to Reason: End-to-End Module Networks for Visual Question Answering阅读笔记

本文提出了一种名为N2NMNs的端到端模块网络,该网络无需外部解析器即可预测特定于实例的网络结构,用于解决视觉问答任务。N2NMNs模型结合了神经模块网络和组合模块化网络的优点,学习生成动态网络结构和参数,以执行图像和文本的联合推理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文提出了端到端模块网络(N2NMNs),它通过直接预测特定于实例的网络布局来学习推理,而无需借助解析器。N2NMNs模型学习生成网络结构,同时学习网络参数(使用下游任务损失)。
一、文章引入
视觉问答(VQA)需要图像和文本的共同理解。这种理解通常依赖于合成推理,例如在场景中定位多个对象并检查它们的属性或将它们相互比较(图1)。
在这里插入图片描述
图1:对于每个实例,本文的模型预测一个计算表达式和一系列关注的模块参数化。它利用这些构造出一个具体的网络结构,然后执行组装后的神经模块网络输出一个答案,用于可视化问答。
本文提出了端到端模块网络(N2NMNs):一类能够直接从文本输入预测新的模块化网络结构并将其应用于图像以解决问答任务的模型。与以前的工作相比,本文的方法将语言解析为语言结构,并将它们组合成适当的布局。
本工作综合并扩展了两个用于视觉问题解决的最新模块化体系结构。 标准神经模块网络(NMN)已经提供了一种根据可组合模块的集合构建动态网络结构的技术。 但是,以前的工作依赖于外部解析器来处理输入文本并获得模块布局。 这是一个严重的局限性,因为现成的语言解析器不是为语言和视觉任务设计的,因此必须使用通常无法预测有效布局的人工规则进行修改。 同时,提出的用于将图像中的引用表达式作为基础的组合模块化网络不需要解析器,而是限于固定的(主体,关系,对象)结构。
二、End-to-End Module Networks
本文提出端到端模块网络(N2NMNs)来解决视觉推理任务的组合性问题。模型由两个主要部分组成:一组共同关注的神经模块,为解决子任务提供参数化函数;一个布局策略,用于预测特定问题的布局,并从中动态组装神经网络。
在这里插入图片描述
图2:模型概述。 首先计算问题的深入表示,然后将其用作使用递归神经网络实现的布局预测策略的输入。 此策略既发出一系列结构动作(以逆波兰式表示法指定模块化神经网络的模板),又发出一系列注意动作(从输入语句中提取这些神经模块的参数)。 这两个序列被传递给网络构建器,网络

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值