本文是LLM系列文章,针对《Aligning Large Language Models to a Domain-specific Graph Database》的翻译。
摘要
图数据库(Graph DB)广泛应用于金融、社交网络和医学等各个领域。然而,由于其固有的复杂性和专业性,将自然语言(NL)翻译成图查询语言(GQL)(通常称为NL2GQL)被证明是具有挑战性的。一些方法试图利用大型语言模型(LLM)来处理类似的任务,如text2SQL。然而,当涉及到特定域上的NL2GQL任务时,由于缺乏特定于域的NL-GQL数据对,因此很难在LLM和图形DB之间建立对齐关系。为了应对这一挑战,我们提出了一个定义明确的管道。具体来说,我们利用ChatGPT在给定的图DB的基础上创建NL-GQL数据对,并进行自我指导。然后,我们使用创建的数据来微调LLM,从而实现LLM和图形DB之间的对齐。此外,在推理过程中,我们提出了一种方法,该方法提取与查询的NL相关的模式作为输入上下文,以指导LLM生成准确的GQL。我们在两个构建的数据集上评估了我们的方法,这两个数据集源自金融领域和医学领域的图数据库,即FinGQL和MediGQL。实验结果表明,我们的方法显著优于一组基线方法,