51、知识引导注意力与推理,助力含未见对象图像描述

知识引导注意力与推理,助力含未见对象图像描述

1. 引言

网络内容高度异构,主要由视觉和文本信息构成。不同模态信息相互补充,这给自动化知识提取技术捕捉完整含义带来了挑战。将不同模态(如图像和文本)的信息关联到知识图谱(KG)中的实体,是使各模态信息便于自动化处理的一种途径。然而,多年来,获取文本和视觉内容的有效形式化表示一直是研究难题。

近年来,将一种非结构化表示转换为另一种的方法取得了显著成果,特别是图像或视频的自然语言描述生成任务备受关注。但目前提出的系统能描述的对象数量极少(少于 100 个),且依赖手动制作的图像 - 字幕平行数据进行训练,无法扩展到实际应用和跨领域的网络规模内容。

相比之下,视觉对象分类技术有了很大改进,能处理的对象数量远超字幕训练数据涵盖的范围。同时,知识图谱不断发展,涵盖了更多对象以及描述它们之间关系的大量事实。因此,这些信息源可能是使现有图像字幕模型无需创建额外训练对就能处理更多对象的关键。本文研究了一个假设,即知识图谱中实体的概念关系可为字幕生成模型提供信息,使其能推广到图像 - 字幕平行数据训练中未见过的对象。

本文的主要贡献如下:
- 设计了一种名为知识引导注意力(KGA)的新方法,用于改进包含训练数据中未出现对象的图像字幕生成任务。
- 创建了一个多实体标签图像分类器,将视觉对象与知识图谱实体关联起来,并引入了一种利用知识图谱中实体关系结构的机制,引导字幕生成器关注正确的知识图谱实体。
- 进行了广泛的实验评估,证明了 KGA 方法在生成有效字幕和扩展到 600 多个视觉对象方面的有效性。

2. 含未见对象图像描述的现有方法

现有方法如深度组合字幕

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值