基于语义建模的视觉关系检测
在计算机视觉领域,视觉关系检测一直是一个重要的研究方向。本文介绍了一种结合语义建模的方法,旨在提高从图像中预测语义三元组的准确性。
1. 方法概述
我们的方法利用统计知识库模型来支持视觉链接预测任务。例如,如果视觉模型检测到一辆摩托车,那么“摩托车 - 有部件 - 轮子”这个三元组很可能是正确的,因为所有摩托车都有轮子。我们建议将这种先验知识集成到各种计算机视觉任务中,特别是将统计语义模型的可能性与视觉模型相结合,以增强图像三元组的预测。
模型的输入是原始图像,并将其与从训练数据中导出的语义先验相结合。这两种信息被融合,以预测输出,包括相关的边界框和描述场景的一组三元组。
2. 背景和相关工作
我们的模型结合了计算机视觉和统计关系学习两个领域的思想。以下是对相关工作的概述:
- 统计链接预测 :许多统计模型被用于建模图结构的知识库,通常称为知识图谱。常用的链接预测方法包括DistMult、ComplEx、Multiway NN和RESCAL等。这些方法通过学习实体和关系的潜在表示(嵌入)来预测三元组的可能性。
- DistMult :通过构建嵌入的三线性点积来对三元组进行评分。
- ComplEx :将DistMult扩展到复数向量。
- Multiway NN :将所有嵌入连接起来并输入到神经网络中。
- RESCAL :学习实体的向量嵌入和关系的矩阵嵌入。
-
-1
超级会员免费看
订阅专栏 解锁全文
18万+

被折叠的 条评论
为什么被折叠?



