(六十五):GLA: Global–Local Attention for Image Description
- 出处: IEEE Trans. Multim. 20(3): 726-737 (2018)
- 代码:
- 题目:GLA:图像描述的全局局部关注
- 主要内容:选用𝑉𝐺𝐺16提取全局特征, 𝐹𝑎𝑠𝑡𝑒𝑟 𝑅 − 𝐶𝑁𝑁提取局部特征,通过注意力机制可以选择地关注不同时刻下的显着对象,考虑它们的图像上下文信息。但是没有考虑解码器输出时的双向语义。
Abstract
近年来,自动生成图像描述的任务引起了人工智能领域的广泛关注。得益于卷积神经网络(CNNs)和递归神经网络(RNNs)的发展,许多基于CNN-RNN框架的方法被提出来解决这一任务,并取得了显著的进展。
然而,仍有两个问题需要解决,其中大多数现有方法仅使用图像级表示。一个问题是物体缺失,在生成图像描述时可能会遗漏一些重要的物体,另一个问题是错误预测,可能会在错误的类别中识别出一个物体。
针对这两个问题,本文提出了一种新的生成图像描述的全局局部注意(global-local attention,