自上而下的视觉注意机制被广泛应用于图像字幕和视觉问答(VQA)中,通过精细的分析甚至多个步骤的推理来实现更深入的图像理解。本文提出了一个自下而上和自上而下的注意机制,使注意力能够在物体和其他显著图像区域的水平上计算。自底向上机制(基于更快的R-CNN)提出图像区域,每个区域都有一个相关的特征向量,而自顶向下机制确定特征权重。
一、文章引入
在人类视觉系统中,注意力可以通过当前任务确定的自上而下的信号(例如,寻找某物)自发地集中,并通过与意外的、新颖的或显著的刺激相关的自下而上的信号自动聚焦。本文采用相似的术语,将非视觉或任务特定语境驱动的注意机制称为“自上而下”,而纯视觉的前馈注意机制称为“自下而上”。
图像字幕和VQA中使用的大多数传统视觉注意机制都是自上而下的。将部分完成的字幕输出或与图像有关的问题的表示作为上下文,这些机制通常被训练成选择性地关注卷积神经网络(CNN)的一层或多层的输出。然而,这种方法很少考虑如何确定需要注意的图像区域。如图1所示,结果输入区域对应于大小和形状相同的神经感受野的统一网格-与图像内容无关。
本文提出了一种自下而上和自上而下相结合的视觉注意机制。自下而上机制提出了一组显著的图像区域,每个区域由一个集合的卷积特征向量表示。使用Faster R-CNN来实现自下而上的注意。自上而下的机制使用特定于任务的上下文来预测图像区域上的注意力分布。然后将参与特征向量计算为所有区域的图像特征的加权平均值。
图1:通常,注意力模型对CNN特征进行操作,这些特征对应于大小相等的图像区域的统一网格(左)。本文的方法使注意力能够在物体和其他显著图像区域的水平上进行计算(右)。
二、模型简介
给定一个图像I,图像字幕模型和VQA模型都以一组可变大小的k个图像特征V={v1,…,vk},vi∈RD作为输入,使得每个图像特征都编码图像的一个显著区域。空间图像特征V可以被定义为自下而上的注意模型的输出,或者作为CNN的空间输出层。
2.1
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering阅读笔记
最新推荐文章于 2023-05-22 14:08:18 发布