AkiraFukui*1,2 DongHukPark*1 DaylenYang*1 AnnaRohrbach*1,3 TrevorDarrell1 MarcusRohrbach1 1UC Berkeley EECS, CA, United States 2Sony Corp., Tokyo, Japan 3Max Planck Institute for Informatics, Saarbr¨ucken, Germany
arXiv:1606.01847v2 [cs.CV] 23 Jun 2016
摘要:
近年来对从大规模语言或者可视化数据集中训练针对针对文本或者可视化信息的向量表征建模取得成功。
然而VQA要求‘融合’这些向量表征,关于多模态池化的途径包括:点积,相加和链接。
本文假定以上方法不如外积有效的表征,然而外积由于维度太高一般实际上不可行。
本文提出MCB(Multimodal Compact Bilinear)来有效表征多模态组合。
本人提出一种两次使用MCB的架构,一次在空间特征的预测注意力中,一次在融合'注意力表征'和'问题表征'中

本文提出一种名为Multimodal Compact Bilinear Pooling (MCB)的方法,该方法能够有效地表征多模态数据,适用于视觉问答(VQA)和视觉定位任务。传统方法如点积、相加及链接等不足以表达模态间的复杂交互,而外积虽理论上更佳却因高维度难以应用。MCB通过两次使用,分别在空间特征的预测注意力以及融合注意力表征和问题表征中实现高效处理。
3041

被折叠的 条评论
为什么被折叠?



