本文是LLM系列文章,针对《Large Language Models Can Better Understand Knowledge Graphs Than We Thought》的翻译。
摘要
随着大型语言模型(LLM)参数规模的增长,用模型参数联合训练知识图谱(KG)嵌入以增强LLM能力的成本越来越高。因此,社会对制定快速战略,将KG信息有效整合到LLM中表现出了兴趣。然而,将KGs纳入LLM的格式缺乏标准化;例如,KGs可以转换为线性化的三元组或自然语言(NL)文本。目前的提示方法通常依赖于试错法,使研究人员无法完全理解哪种KG输入格式最有利于LLM对KG内容的理解。为了阐明这一点,我们设计了一系列实验来探索LLM在提示工程的背景下对不同KG输入格式的理解。我们的分析考察了文字和注意力分布水平。通过广泛的实验,我们发现了一个反直觉的现象:在解决与事实相关的问题时,与流畅的NL文本相比,无序的线性化三元组对LLM理解KGs更有效。此外,有噪声的、不完整的或边缘相关的子图仍然可以提高LLM的性能。最后,不同的LLM对组织无序三元组的不同格式有不同的偏好。