MMpedia:大规模多模态知识图谱的构建与应用
1. 引言
知识图谱(KG)是一种重要的资源,已广泛应用于文本分类、推荐系统和问答系统等多个领域。传统的知识图谱通常以自然语言的形式呈现实体信息,缺乏视觉、音频等其他模态的信息。这导致了两个主要问题:
- 认知领域 :限制了机器对物理世界的理解能力。例如,人类通过与猫的实际接触形成“猫”的概念,而机器仅依靠符号和文本难以获得类似的体验,因此需要将知识图谱中的实体与对应的图像关联起来,为机器提供视觉体验。
- 应用领域 :将实体与图像关联可以提升机器在自然语言处理任务中的表现,如关系提取、命名实体识别和推荐等。以关系提取任务为例,仅根据文本信息有时难以确定实体之间的关系,但结合图像中的额外信息(如年龄、性别等),则更容易推断出关系。
2. 现有多模态知识图谱的局限性
目前已经提出了一些将实体与图像关联的多模态知识图谱(MMKG),主要通过从在线百科全书(OEs)或网络搜索引擎(WSEs)收集图像来构建,但这两种方式都存在一定的局限性。
2.1 从在线百科全书收集图像
一些MMKG(如IMGpedia和Visualsem)将在线百科全书(如Wikipedia)作为视觉信息源,通过数据链接和图像 - 文本匹配的方法构建。这些百科全书中的图像相对可靠,且带有文本注释,但由于在线百科全书中实体数量有限,这种方式构建的MMKG难以扩展。例如,在DBpedia中的“Acroma (Band)”实体,在Wikimedia commons中可能找不到对应的图像。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



