论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

该论文提出了一种结合Bottom-Up和Top-Down注意力机制的模型,用于图像标题生成和视觉问答任务。Bottom-Up模型基于Faster R-CNN提取图像区域特征,Top-Down模型利用LSTM确定这些特征的权重。在Image Caption部分,模型包含两个LSTM,一个用于语言处理,一个用于Top-Down注意力。在VQA部分,模型采用软注意力机制,将问题和图像进行联合多模态嵌入。实验结果显示,该模型在两个任务上均取得最佳效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文链接:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
Bottom-Up Attention Model

本文的bottom up attention 模型在后面的image caption部分和VQA部分都会被用到。

这里用的是object detection领域的Faster R-CNN方法来提取,详细的就不再说了。
这里写图片描述

其中把提取出的region的mean-pooled convolutional feature定义为vi

因为只有小部分的bounding box会被选择出来, Faster R-CNN可以看作是一种hard attention机制。

bottom up attetion model在完成imageNet的预训练后,又到visual genome数据上进行了训练,原因如下。

为了学习到更好的特征表示,除了预测object class以外,他们额外加了一个训练输出,来预测region i
的attribute class(比如物体的颜色、材质等,具体见上图,这些属性在visual genome上可以找到)。这里是通过把vi

和一个可训练的ground-truth object class的embedding这两者进行concatenate,并把它送达到一个额外的输出层,输出层是每个attribute class的softmax分布。

本文保留了Faster R-CNN的损失函数,并在此基础上加了一个multi-class loss来训练attribute predictor。
Image Caption部分

Caption model结构如图所示,共有2个LSTM模块,一个是Language LSTM,另一个是Top-Down Attention LSTM。

caption model

这里两个LSTM都是用的标准LSTM,因此就简化表述了:

ht=LSTM(xt,h

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值