本文是LLM系列文章,针对《Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering》的翻译。
摘要
基于知识的视觉问答(KVQA)已被广泛研究,以利用外部知识(如知识图谱(KGs))回答视觉问题。虽然已经提出了几种利用大型语言模型(LLM)作为隐含知识源的尝试,但由于LLM可能会产生幻觉,这仍然具有挑战性。此外,对于复杂的场景,多个知识源,例如图像、KGs和LLM,不能容易地对齐。为了解决这些问题,我们为KVQA(MAIL)提出了一种新的模态感知集成LLM。它谨慎地利用多模态知识来进行图像理解和知识推理。具体而言,(i)我们提出了一种具有LLM的两阶段提示策略,以将图像密集地体现为具有详细视觉特征的场景图;(ii)我们通过将上述实体与外部事实联系起来,构建了一个耦合概念图。(iii)为充分的多模态融合设计了定制的伪siamese图介质融合。我们利用两个图中提到的共享实体作为媒介来桥接紧密的模态间交换,同时通过约束媒介内的融合来最大限度地保留深入的模态内学习。在两个基准数据集上进行的大量实验表明,MAIL在资源减少24倍的情况下具有优越性。