本文是LLM系列文章,针对《Generative Multi-Modal Knowledge Retrieval with Large Language Models》的翻译。
摘要
使用多模态查询的知识检索在支持知识密集型多模态应用方面发挥着至关重要的作用。然而,现有的方法在有效性和训练效率方面面临挑战,尤其是在训练和集成多个检索器以处理多模态查询时。在本文中,我们提出了一个创新的多模态知识检索的端到端生成框架。我们的框架利用了这样一个事实,即即使在使用有限的数据进行训练的情况下,大型语言模型(LLM)也可以有效地充当虚拟知识库。我们通过两步过程检索知识:1)生成与查询相关的知识线索,2)使用知识线索搜索数据库,获得相关文档。特别地,我们首先引入了一种对象感知前缀调优技术来指导多粒度视觉学习。然后,我们将多粒度的视觉特征对齐到LLM的文本特征空间中,使用LLM来捕获跨模态交互。随后,我们构建了具有统一格式的指令数据,用于模型训练。最后,我们提出了知识引导的生成策略,在解码步骤中施加先验约束,从而促进独特知识线索的生成。通过在三个基准上进行的实验,我们证明,与强大的基线相比,所有评估指标都有3.0%至14.6%的显著改进。