文章汉化系列目录
知识图谱与多模态学习的关系研究综述P1
知识图谱与多模态学习的关系研究综述P2
知识图谱与多模态学习的关系研究综述P3
知识图谱与多模态学习的关系研究综述P4
知识图谱与多模态学习的关系研究综述P5
VI 挑战与机遇
MMKGs与传统KG的目标是缓解各种任务中长尾知识稀缺的问题,这一问题反映了现实生活中高频共现和人类经验的模式。目前的研究假设,假如拥有一个无限扩展的MMKG,就可以涵盖几乎所有相关的世界知识,足以有效地应对所有多模态挑战。然而,仍存在一些关键问题:我们如何获取理想的多模态知识?理想的MMKG应具备什么特征,能否精确反映人类大脑对世界知识的高级理解?此外,与大型语言模型(LLMs)的知识能力相比,MMKG是否提供了独特且不可替代的优势?探索这些问题对于我们在该领域的持续研究至关重要。
VI-A MMKG的构建与获取
(i) 如§ III-B所述,MMKG构建主要涉及两种范式:为图像注释KG符号或将KG符号与图像进行对齐。近期的发展如文献[68]所强调,开始探索一种新路径,即将从多张图像中提取的局部三元组与大规模KG进行对齐,可视为MMKG和超MMKG的混合模式。该混合方法的优势有两点:不仅扩展了图像数量的覆盖(如第一种范式所示),还引入了第二种范式的广泛知识规模。这种方法推动了大规模三元组级别的多模态信息生成,为未来在多模态实体对齐和MMKG驱动的应用(如MLLM预训练和VQA)领域带来了机遇和挑战。
(ii) 精细知识的优化和对齐在MMKG中至关重要。理想的MMKG应当是分层的,具有详细且抽象的多模态知识深度结构。这种结构允许自动分解大规模跨模态数据,使得一张图像能够承载多个概念的对齐【561】。此外,分割技术代表了对图像标注的进一步要求,利用诸如Segment Anything【562】等技术,可以显著减少视觉模态中的背景噪音影响。因此,朝向分割级别、分层和多粒度的MMKG发展将成为未来的重要方向。
(iii) 在视觉模态中,我们认为抽象概念应与抽象视觉表示相对应,而具体概念则应与特定视觉表现一致。例如,诸如猫和狗的广泛概念在大脑中呈现为一般化的动物形象,而具体修饰词(如“阿拉斯加雪橇犬”)则提供了更加明确的理解,与MMKG中的路径检索类似。此外,我们还认为每个概念,不论是否可视化,都可以关联某种模态表现。抽象概念“心灵”可能唤起“脑”或“思考中的人”之类的图像,这展示了MMKG表达非可视化概念的能力。这一观点与先前的看法【10】【84】形成对比。值得注意的是,在人类认知中,罕见概念(如“独角兽”)通常更为生动地呈现。如果我们仅将独角兽视为“有角的马”,这种特定的图像会被记忆,而非有角的海豹或狮子。这与MMKG数据结构相呼应:具有较少图像的概念呈现得更加清晰,而图像较多的概念则更加泛化和模糊。
(iv) MMKG的存储和利用效率仍然是一个关注点。尽管传统KG轻量化且能够在最小参数下存储大量知识,但MMKG需要更多空间,这在跨任务中挑战数据的高效存储和应用。提高效率可以考虑将多模态信息嵌入到密集空间作为一种临时解决方案。未来研究应努力在不牺牲MMKG可解释性和结构完整性的前提下提高使用和存储效率,这一微妙的平衡将是一个持续的挑战。
(v) MMKG质量控制在多模态(如视觉)内容中引入了独特的挑战,例如图像的错误、缺失或过时问题。现有MMKG中有限的图像与文本的精细对齐,以及自动MMKG构建方法的噪声,均需开发质量控制技术,可能通过基于模态信息质量打分的方式进行控制。鉴于世界知识的动态性,定期更新MMKG至关重要。一个重要的研究方向在于高效实现多模态知识冲突检测和更新。动态、时序甚至时空MMKG【563】的开发同样重要,以增强其在多样环境和用户需求中的适应性。此外,跨语言MMKG可以促进跨文化交流,通过理解和协作克服语言障碍,并支持全球文化共享。
VI-B KG4MM任务
在评估基于知识图谱的多模态任务时,识别多模态知识的独特优势尤其重要,特别是相对于大型文本或多模态语料库。一个关键问题是结构化(多模态)知识图谱是否能提供不可替代的优势,从而充分发挥其潜力。此外,还应考虑是否通过(多模态)知识图谱增强的非LLM模型可以在特定任务上与MLLMs匹敌或优于MLLMs,为未来的发展提供令人信服的

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



