(六十五)：GLA: Global–Local Attention for Image Description

Laura_Wangzx

已于 2023-06-28 22:25:23 修改

阅读量513

点赞数

CC 4.0 BY-SA版权

分类专栏： “情感分析”研究方向论文-精读总结文章标签：计算机视觉人工智能

于 2021-11-05 10:47:59 首次发布

本文链接：https://blog.youkuaiyun.com/qq_37486501/article/details/121144243

“情感分析”研究方向论文-精读总结专栏收录该内容

87 篇文章 ¥19.90 ¥99.00

订阅专栏

本文提出了一种全局-局部注意力模型（GLA），用于图像描述生成，解决了现有方法中物体缺失和错误预测的问题。GLA模型结合了全局特征和局部特征，通过注意力机制在不同时间步骤中选择性关注语义上更重要的区域，同时保留图像上下文信息。实验在MS COCO数据集上进行，GLA方法在多个评价指标下实现了最先进的性能，证明了其在图像标题生成任务中的有效性。

（六十五）：GLA: Global–Local Attention for Image Description

Abstract
1. Introduction
2. Related Work
3. FRAMEWORK OVERVIEW
4.GLOBAL-LOCAL ATTENTION MODEL
5. EXPERIMENTS
6. CONCLUSION

出处： IEEE Trans. Multim. 20(3): 726-737 (2018)
代码：
题目：GLA:图像描述的全局局部关注
主要内容：选用𝑉𝐺𝐺16提取全局特征， 𝐹𝑎𝑠𝑡𝑒𝑟 𝑅 − 𝐶𝑁𝑁提取局部特征，通过注意力机制可以选择地关注不同时刻下的显着对象，考虑它们的图像上下文信息。但是没有考虑解码器输出时的双向语义。

Abstract

近年来，自动生成图像描述的任务引起了人工智能领域的广泛关注。得益于卷积神经网络(CNNs)和递归神经网络(RNNs)的发展，许多基于CNN-RNN框架的方法被提出来解决这一任务，并取得了显著的进展。
然而，仍有两个问题需要解决，其中大多数现有方法仅使用图像级表示。一个问题是物体缺失，在生成图像描述时可能会遗漏一些重要的物体，另一个问题是错误预测，可能会在错误的类别中识别出一个物体。
针对这两个问题，本文提出了一种新的生成图像描述的全局局部注意(global-local attention, GLA)方法。提出的GLA模型利用关注机制将目标级特征与图像级特征相结合。通过这种方式，我们的模型可以选择性地同时关注对象和上下文信息。
因此，我们提出的GLA方法可以在著名的Microsoft COCO标题数据集上生成更多相关的图像描述句子，并使用几个流行的评价指标(cider、METEOR、ROUGE-L和bleu - 1,2,3,4)实现最先进的性能。