知识引导注意力与推理,助力含未见对象图像描述
1. 引言
网络内容高度异构,主要由视觉和文本信息构成。不同模态信息相互补充,这给自动化知识提取技术捕捉完整含义带来了挑战。将不同模态(如图像和文本)的信息关联到知识图谱(KG)中的实体,是使各模态信息便于自动化处理的一种途径。然而,多年来,获取文本和视觉内容的有效形式化表示一直是研究难题。
近年来,将一种非结构化表示转换为另一种的方法取得了显著成果,特别是图像或视频的自然语言描述生成任务备受关注。但目前提出的系统能描述的对象数量极少(少于 100 个),且依赖手动制作的图像 - 字幕平行数据进行训练,无法扩展到实际应用和跨领域的网络规模内容。
相比之下,视觉对象分类技术有了很大改进,能处理的对象数量远超字幕训练数据涵盖的范围。同时,知识图谱不断发展,涵盖了更多对象以及描述它们之间关系的大量事实。因此,这些信息源可能是使现有图像字幕模型无需创建额外训练对就能处理更多对象的关键。本文研究了一个假设,即知识图谱中实体的概念关系可为字幕生成模型提供信息,使其能推广到图像 - 字幕平行数据训练中未见过的对象。
本文的主要贡献如下:
- 设计了一种名为知识引导注意力(KGA)的新方法,用于改进包含训练数据中未出现对象的图像字幕生成任务。
- 创建了一个多实体标签图像分类器,将视觉对象与知识图谱实体关联起来,并引入了一种利用知识图谱中实体关系结构的机制,引导字幕生成器关注正确的知识图谱实体。
- 进行了广泛的实验评估,证明了 KGA 方法在生成有效字幕和扩展到 600 多个视觉对象方面的有效性。
2. 含未见对象图像描述的现有方法
现有方法如深度组合字幕
超级会员免费看
订阅专栏 解锁全文
1516

被折叠的 条评论
为什么被折叠?



