Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

原创

已于 2022-11-18 14:29:39 修改 · 2.1k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能 #计算机视觉

于 2022-11-11 03:56:45 首次发布

一、摘要

自下而上的机制(基于Faster R-CNN)：提取出图像区域，每个区域都有一个相关的特征向量。

自上而下的机制：确定特征权重。

提出了一种自下而上和自上而下的结合注意力机制，使注意力能够在对象和其他显著图像区域上计算。这是注意力（Attention）被考虑的基础。

二、简介

视觉注意机制：基于深度神经网络架构，通过学习关注图像中显著的区域来提高性能。

自上而下（Top-Down ）：非视觉或任务特定环境驱动的注意机制。

自下而上（Bottom-Up ）：纯视觉前馈注意机制。

图像字幕（Image Captioning）和视觉问答(VQA) 通常需要执行一些细粒度的可视化处理，甚至多个推理步骤来生成高质量的输出。

大多数用于图像字幕和VQA的传统视觉注意机制都是自上而下的。它们一般被训练为只是选择性地关注CNN输出中的某一层或某几层。然而，这种方法很少考虑如何确定受注意的图像区域。

本文提出了一种自下而上和自上而下结合的视觉注意机制。

自下而上（Bottom-Up）机制提取出了一组显著图像区域，每个区域由一个汇集的卷积特征向量表示。使用Faster R-CNN实现自下而上的注意，它代表了自下而上注意机制的自然表达。

自上而下（Top-Down）的机制使用任务特定的上下文（context）来预测图像区域的注意力分布。然后，将参与的特征向量计算为所有区域图像特征的加权平均值。

三、相关工作

大量基于注意力的深度神经网络被提出用于图像字幕和VQA。通常，这些模型可以被描述为自顶向下（Top-Down）的方法。

这些方法确定图像区域的最佳数量时总是需要在粗和细的细节水平之间进行无法取胜的权衡。此外，区域相对于图像内容的任意定位可能使得难以检测与区域对齐不良的物体，并难以绑定与同一物体相关的视觉概念。

以前的工作相对较少考虑将注意力应用到突出的图像区域。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。