论文笔记 Co-Attending Free-Form Regions and Detections (AAAI2018)

本文提出一种结合自由形态区域与检测区域的方法解决视觉问答(VQA)问题。通过利用ResNet152和Faster R-CNN分别提取图像特征,采用多模态乘法特征嵌入机制实现注意力机制的有效整合,以克服各自局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Co-Attending Free-Form Regions and Detections with Multi-Modal Multiplicative Feature Embedding for Visual Question Answering

现在做VQA的,很多方法都是基于question在图像中寻找显著性区域,来获得相应answer。

attention主要分为两支free-form region baseddetection-based

两支单独做,各有弊端,比如free-form的图像的切分往往会把object分成很多细粒度块,而如cat的身体与狗的身体块,可

能很相似,这样会误导模型产生错误的答案,而dection based mechanism往往事先检测出实体区域,对于许多涉及前景的

问题很有利,但比如“How is the weather today?”这样的问题确比较难,因为或许不存在sky这样的bounding box。

因此本文将两种方式结合起来,彼此互补。

方法思想

这里写图片描述
网络结构

这里写图片描述

free based是利用Resnet152提取14142048特征,可视为划分196个图像区域。

detection based是利用fasterrcnn提取19个bounding box特征19*4097(其中4096是图像特征,1是

bounding box的检测得分。)

attention细节

这里写图片描述

数据集

VQA, COCO-QA

结果

这里写图片描述
这里写图片描述
这里写图片描述
论文网址:Co-Attending Free-Form Regions and Detections with Multi-Modal Multiplicative Feature Embedding for Visual Question Answering

github源码:dual-mfa-vqa

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猴猴猪猪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值