这是一篇2019年CVPR的论文。作者认为VQA任务需要对图像中的视觉内容和问题中的文本内容进行细粒度和同步的理解。因此,设计一个有效的“共同注意”模型将问题中的关键词与图像中的关键对象相关联是 VQA 性能提升的核心。
论文链接:CVPR 2019 Open Access Repository
code:GitHub - MILVLG/mcan-vqa: Deep Modular Co-Attention Networks for Visual Question Answering
背景
&nbs