论文链接:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
Bottom-Up Attention Model
本文的bottom up attention 模型在后面的image caption部分和VQA部分都会被用到。
这里用的是object detection领域的Faster R-CNN方法来提取,详细的就不再说了。
这里写图片描述
其中把提取出的region的mean-pooled convolutional feature定义为vi
。
因为只有小部分的bounding box会被选择出来, Faster R-CNN可以看作是一种hard attention机制。
bottom up attetion model在完成imageNet的预训练后,又到visual genome数据上进行了训练,原因如下。
为了学习到更好的特征表示,除了预测object class以外,他们额外加了一个训练输出,来预测region i
的attribute class(比如物体的颜色、材质等,具体见上图,这些属性在visual genome上可以找到)。这里是通过把vi
和一个可训练的ground-truth object class的embedding这两者进行concatenate,并把它送达到一个额外的输出层,输出层是每个attribute class的softmax分布。
本文保留了Faster R-CNN的损失函数,并在此基础上加了一个multi-class loss来训练attribute predictor。
Image Caption部分
Caption model结构如图所示,共有2个LSTM模块,一个是Language LSTM,另一个是Top-Down Attention LSTM。
caption model
这里两个LSTM都是用的标准LSTM,因此就简化表述了:
ht=LSTM(xt,h