论文笔记 :Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

本文提出一种名为Multimodal Compact Bilinear Pooling (MCB)的方法,该方法能够有效地表征多模态数据,适用于视觉问答(VQA)和视觉定位任务。传统方法如点积、相加及链接等不足以表达模态间的复杂交互,而外积虽理论上更佳却因高维度难以应用。MCB通过两次使用,分别在空间特征的预测注意力以及融合注意力表征和问题表征中实现高效处理。
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

AkiraFukui*1,2 DongHukPark*1 DaylenYang*1 AnnaRohrbach*1,3 TrevorDarrell1 MarcusRohrbach1 1UC Berkeley EECS, CA, United States 2Sony Corp., Tokyo, Japan 3Max Planck Institute for Informatics, Saarbr¨ucken, Germany


arXiv:1606.01847v2  [cs.CV]  23 Jun 2016


摘要:


近年来对从大规模语言或者可视化数据集中训练针对针对文本或者可视化信息的向量表征建模取得成功。

然而VQA要求‘融合’这些向量表征,关于多模态池化的途径包括:点积,相加和链接。

本文假定以上方法不如外积有效的表征,然而外积由于维度太高一般实际上不可行。

本文提出MCB(Multimodal Compact Bilinear)来有效表征多模态组合。

本人提出一种两次使用MCB的架构,一次在空间特征的预测注意力中,一次在融合'注意力表征'和'问题表征'中


评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值