论文阅读—《Stacked Attention Networks for Image Question Answering》

论文阅读—《Stacked Attention Networks for Image Question Answering》

1. 引言

在视觉问答(Visual Question Answering, VQA)任务中,给定一张图像和一个自然语言问题,模型需要基于图像内容给出正确的答案。本文介绍的 Stacked Attention Networks (SANs) 提出了一种 多层注意力机制,通过多轮推理来逐步聚焦于与问题相关的图像区域,从而提高问答性能。

2. 模型结构

SAN 模型主要由以下几个部分组成:

  • 图像特征提取:使用 CNN(如 VGG-19)提取图像特征。
  • 问题特征提取:使用 LSTM 处理文本问题。
  • 多层注意力机制:对图像特征进行多轮注意力计算。
  • 答案预测:结合注意力加权的图像特征和问题特征进行分类。

2.1 图像特征提取

论文中采用 VGG-19 预训练模型来提取图像特征,取倒数第二层的输出作为 d×d×c 的特征表示(如 14×14×512)。

2.2 问题特征提取

采用 LSTM 处理输入问题,得到最终隐藏状态向量 q 作为问题的表示。

2.3 Stacked Attention 机制

核心思想是利用 多层注意力(Stacked Attention) 进行多轮推理。假设输入图像特征 v,问题特征 q,第 t 轮注意力计算如下:

  1. 计算注意力权重:
    h t = tanh ( W v v + ( W q q + b q ) ) h_t = \text{tanh}(W_v v + (W_q q + b_q)) ht=tanh(Wv</

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值