Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering

最新推荐文章于 2026-01-09 21:51:15 发布

原创最新推荐文章于 2026-01-09 21:51:15 发布 · 160 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

LLM 日更同时被 3 个专栏收录

828 篇文章

已下架不支持订阅

Multimodal

177 篇文章

订阅专栏

LLM for NLP

31 篇文章

订阅专栏

本文介绍MAIL方法，它解决基于知识的视觉问答（KVQA）中大型语言模型（LLM）的幻觉问题。MAIL采用两阶段提示策略将图像转换为场景图，结合外部知识构建耦合概念图，通过定制的伪siamese图介质融合实现多模态交互。实验显示，MAIL在资源减少24倍的情况下性能优于现有技术。

本文是LLM系列文章，针对《Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering》的翻译。

摘要

基于知识的视觉问答（KVQA）已被广泛研究，以利用外部知识（如知识图谱（KGs））回答视觉问题。虽然已经提出了几种利用大型语言模型（LLM）作为隐含知识源的尝试，但由于LLM可能会产生幻觉，这仍然具有挑战性。此外，对于复杂的场景，多个知识源，例如图像、KGs和LLM，不能容易地对齐。为了解决这些问题，我们为KVQA（MAIL）提出了一种新的模态感知集成LLM。它谨慎地利用多模态知识来进行图像理解和知识推理。具体而言，（i）我们提出了一种具有LLM的两阶段提示策略，以将图像密集地体现为具有详细视觉特征的场景图；（ii）我们通过将上述实体与外部事实联系起来，构建了一个耦合概念图。（iii）为充分的多模态融合设计了定制的伪siamese图介质融合。我们利用两个图中提到的共享实体作为媒介来桥接紧密的模态间交换，同时通过约束媒介内的融合来最大限度地保留深入的模态内学习。在两个基准数据集上进行的大量实验表明，MAIL在资源减少24倍的情况下具有优越性。