论文阅读—《Stacked Attention Networks for Image Question Answering》
1. 引言
在视觉问答(Visual Question Answering, VQA)任务中,给定一张图像和一个自然语言问题,模型需要基于图像内容给出正确的答案。本文介绍的 Stacked Attention Networks (SANs) 提出了一种 多层注意力机制,通过多轮推理来逐步聚焦于与问题相关的图像区域,从而提高问答性能。
2. 模型结构
SAN 模型主要由以下几个部分组成:
- 图像特征提取:使用 CNN(如 VGG-19)提取图像特征。
- 问题特征提取:使用 LSTM 处理文本问题。
- 多层注意力机制:对图像特征进行多轮注意力计算。
- 答案预测:结合注意力加权的图像特征和问题特征进行分类。
2.1 图像特征提取
论文中采用 VGG-19 预训练模型来提取图像特征,取倒数第二层的输出作为 d×d×c 的特征表示(如 14×14×512)。
2.2 问题特征提取
采用 LSTM 处理输入问题,得到最终隐藏状态向量 q 作为问题的表示。
2.3 Stacked Attention 机制
核心思想是利用 多层注意力(Stacked Attention) 进行多轮推理。假设输入图像特征 v,问题特征 q,第 t 轮注意力计算如下:
-
计算注意力权重:
h t = tanh ( W v v + ( W q q + b q ) ) h_t = \text{tanh}(W_v v + (W_q q + b_q)) ht=tanh(Wv</

最低0.47元/天 解锁文章
1260






