(六十五):GLA: Global–Local Attention for Image Description
- 出处: IEEE Trans. Multim. 20(3): 726-737 (2018)
- 代码:
- 题目:GLA:图像描述的全局局部关注
- 主要内容:选用𝑉𝐺𝐺16提取全局特征, 𝐹𝑎𝑠𝑡𝑒𝑟 𝑅 − 𝐶𝑁𝑁提取局部特征,通过注意力机制可以选择地关注不同时刻下的显着对象,考虑它们的图像上下文信息。但是没有考虑解码器输出时的双向语义。
Abstract
近年来,自动生成图像描述的任务引起了人工智能领域的广泛关注。得益于卷积神经网络(CNNs)和递归神经网络(RNNs)的发展,许多基于CNN-RNN框架的方法被提出来解决这一任务,并取得了显著的进展。
然而,仍有两个问题需要解决,其中大多数现有方法仅使用图像级表示。一个问题是物体缺失,在生成图像描述时可能会遗漏一些重要的物体,另一个问题是错误预测,可能会在错误的类别中识别出一个物体。
针对这两个问题,本文提出了一种新的生成图像描述的全局局部注意(global-local attention, GLA)方法。提出的GLA模型利用关注机制将目标级特征与图像级特征相结合。通过这种方式,我们的模型可以选择性地同时关注对象和上下文信息。
因此,我们提出的GLA方法可以在著名的Microsoft COCO标题数据集上生成更多相关的图像描述句子,并使用几个流行的评价指标(cider、METEOR、ROUGE-L和bleu - 1,2,3,4)实现最