多模态知识图谱与本体仓库技术前沿洞察
1. 大规模多模态知识图谱MMpedia
在多模态知识图谱领域,MMpedia的出现具有重要意义。它是一个大规模的多模态知识图谱,通过一种新颖的流水线方法构建而成。该方法的具体步骤如下:
1. 图像收集 :从网络搜索引擎(WSE)收集图像。
2. 实体过滤 :使用多模态分类器过滤非视觉实体。
3. 噪声去除 :利用实体的文本和类型信息去除噪声图像。
经过这些步骤,MMpedia得以构建,它包含2,661,941个实体和19,489,074张图像,在现有多模态知识图谱中拥有最多的图像数量。
为了评估MMpedia中收集的图像对多模态大语言模型(M - LLMs)的帮助,研究人员进行了相关实验。随机选择200个三元组,比较视觉上下文生成器(VCG)在三种不同输入下的性能:
- 输入1 :头实体(h)和关系(r)。
- 输入2 :头实体(h)、关系(r)和我们收集的图像。
- 输入3 :头实体(h)、关系(r)和谷歌图像。
VCG根据给定的头实体和关系对候选尾实体列表进行重新排序,提示信息包括任务定义、一个正例和两个反例。实验结果表明,收集的图像提高了VCG在尾实体预测上的性能。
下面是这个实验的流程图:
graph LR
A[选择20
超级会员免费看
订阅专栏 解锁全文
771

被折叠的 条评论
为什么被折叠?



