读论文:Stacked Attention Networks for Image Question Answering
文章目录
一、概述
本文介绍了堆叠式注意力网络(SAN),该网络学习从图像中回答自然语言问题。SAN使用问题的语义表示作为查询来搜索图像中与答案相关的区域,通过多次查询图像以逐步推断答案。并在四个图像QA数据集上进行了实验,观察验证结果可以发现本文提出的SAN明显优于以前的最新方法。注意层的可视化说明了SAN定位相关视觉线索的过程,这些线索可以逐层回答问题。
二、SAN的模型结构
1.整体结构
下图为SAN的整体结构图,该模型使用CNN来提取图像特征,使用LSTM或CNN来将问题“what are sitting in the basket on a bicycle?”转换成问题向量。然后在第一个视觉注意层将问题向量与检索到的图像向量相结合起来以形成精炼的查询向量,用来在第二个视觉注意层再次查询图像向量。较高级别的注意力层将注意力集中在与答案更相关的区域上,从而使注意力分布更加清晰。最后,我们将关注度最高的图层的图像特征与最后一个查询向量相结合,以预测答案。

2.内部结构
2.1 Image model
本文使用VGGNet来提取图像特征。首先把图像重新缩放为448448,然后从最后一个池化层中选择特征fI,尺寸为51214*14,其中包含了原始图像的空间信息。为了方便建模,使用单层感知器将每个特征向量转换为与问题向量具有相同维度的新向量。
<

本文介绍了一种名为Stacked Attention Networks (SAN)的模型,用于图像问答任务。SAN通过多次注意力机制查询图像,寻找与答案相关的区域。它在四个图像问答数据集上表现出优越性能。模型结构包括CNN提取图像特征,LSTM或CNN处理问题,以及堆叠的注意力层逐步聚焦答案。实验显示,SAN能够有效地定位和推断答案,尤其在多层注意力下,提高了答案的准确性。
最低0.47元/天 解锁文章
3062

被折叠的 条评论
为什么被折叠?



