读论文:Stacked Attention Networks for Image Question Answering
文章目录
一、概述
本文介绍了堆叠式注意力网络(SAN),该网络学习从图像中回答自然语言问题。SAN使用问题的语义表示作为查询来搜索图像中与答案相关的区域,通过多次查询图像以逐步推断答案。并在四个图像QA数据集上进行了实验,观察验证结果可以发现本文提出的SAN明显优于以前的最新方法。注意层的可视化说明了SAN定位相关视觉线索的过程,这些线索可以逐层回答问题。
二、SAN的模型结构
1.整体结构
下图为SAN的整体结构图,该模型使用CNN来提取图像特征,使用LSTM或CNN来将问题“what are sitting in the basket on a bicycle?”转换成问题向量。然后在第一个视觉注意层将问题向量与检索到的图像向量相结合起来以形成精炼的查询向量,用来在第二个视觉注意层再次查询图像向量。较高级别的注意力层将注意力集中在与答案更相关的区域上,从而使注意力分布更加清晰。最后,我们将关注度最高的图层的图像特征与最后一个查询向量相结合,以预测答案。
2.内部结构
2.1 Image model
本文使用VGGNet来提取图像特征。首先把图像重