读论文：Stacked Attention Networks for Image Question Answering

最新推荐文章于 2025-02-28 09:42:39 发布

原创

最新推荐文章于 2025-02-28 09:42:39 发布 · 364 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #网络

本文介绍了一种名为Stacked Attention Networks (SAN)的模型，用于图像问答任务。SAN通过多次注意力机制查询图像，寻找与答案相关的区域。它在四个图像问答数据集上表现出优越性能。模型结构包括CNN提取图像特征，LSTM或CNN处理问题，以及堆叠的注意力层逐步聚焦答案。实验显示，SAN能够有效地定位和推断答案，尤其在多层注意力下，提高了答案的准确性。

读论文：Stacked Attention Networks for Image Question Answering

一、概述

本文介绍了堆叠式注意力网络（SAN），该网络学习从图像中回答自然语言问题。SAN使用问题的语义表示作为查询来搜索图像中与答案相关的区域，通过多次查询图像以逐步推断答案。并在四个图像QA数据集上进行了实验，观察验证结果可以发现本文提出的SAN明显优于以前的最新方法。注意层的可视化说明了SAN定位相关视觉线索的过程，这些线索可以逐层回答问题。

二、SAN的模型结构

1.整体结构

下图为SAN的整体结构图，该模型使用CNN来提取图像特征，使用LSTM或CNN来将问题“what are sitting in the basket on a bicycle?”转换成问题向量。然后在第一个视觉注意层将问题向量与检索到的图像向量相结合起来以形成精炼的查询向量，用来在第二个视觉注意层再次查询图像向量。较高级别的注意力层将注意力集中在与答案更相关的区域上，从而使注意力分布更加清晰。最后，我们将关注度最高的图层的图像特征与最后一个查询向量相结合，以预测答案。
在这里插入图片描述