(六十五):GLA: Global–Local Attention for Image Description

本文提出了一种全局-局部注意力模型(GLA),用于图像描述生成,解决了现有方法中物体缺失和错误预测的问题。GLA模型结合了全局特征和局部特征,通过注意力机制在不同时间步骤中选择性关注语义上更重要的区域,同时保留图像上下文信息。实验在MS COCO数据集上进行,GLA方法在多个评价指标下实现了最先进的性能,证明了其在图像标题生成任务中的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 出处: IEEE Trans. Multim. 20(3): 726-737 (2018)
  • 代码:
  • 题目:GLA:图像描述的全局局部关注
  • 主要内容:选用𝑉𝐺𝐺16提取全局特征, 𝐹𝑎𝑠𝑡𝑒𝑟 𝑅 − 𝐶𝑁𝑁提取局部特征,通过注意力机制可以选择地关注不同时刻下的显着对象,考虑它们的图像上下文信息。但是没有考虑解码器输出时的双向语义。

Abstract

近年来,自动生成图像描述的任务引起了人工智能领域的广泛关注。得益于卷积神经网络(CNNs)和递归神经网络(RNNs)的发展,许多基于CNN-RNN框架的方法被提出来解决这一任务,并取得了显著的进展。
然而,仍有两个问题需要解决,其中大多数现有方法仅使用图像级表示。一个问题是物体缺失,在生成图像描述时可能会遗漏一些重要的物体,另一个问题是错误预测,可能会在错误的类别中识别出一个物体
针对这两个问题,本文提出了一种新的生成图像描述的全局局部注意(global-local attention,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值