MMpedia:大规模多模态知识图谱的构建与评估
1. 引言
在多模态知识图谱的构建中,图像数据的质量和相关性至关重要。本文将介绍一种构建大规模多模态知识图谱MMpedia的方法,包括实体图像匹配、实体类型检测等关键步骤,并对MMpedia进行详细分析和实验验证。
2. 关键技术步骤
2.1 实体 - 图像匹配
为了去除与实体不匹配的图像,引入了实体 - 图像匹配技术,使用预训练的图像 - 文本模型CLIP。具体步骤如下:
1. 对于每个实体e,将其文本描述$T_e$输入CLIP的文本编码部分,得到嵌入$c_{text} \in R^{d_c}$。
2. 使用CLIP的视觉编码部分对实体e的检索图像$[P_1, …, P_n]$进行编码,得到图像嵌入$c_{img} \in R^{n*d_c}$。
3. 通过外积计算图像 - 文本匹配度,公式如下:
- $c_{text} = Enc_{text}(T_e)$
- $c_{img} = [c_1^{img}, …, c_n^{img}] = Enc_{image}([P_1, …, P_n])$
- $c_{score} = [c_1^{score}, …, c_n^{score}] = c_{text} c_{img}^T \in R^{d_n}$
其中,$c_i^{score} \in R$表示文本$T_e$和图像$P_i$的匹配分数。如果$c_i^{score}$低于预定义的阈值,则移除图像$P_i$。
2.2 实体类型检测
尽管使用CLIP和文本信息去除了一些噪声图像,但仍可能存在不
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



