Unifying Large Language Models and Knowledge Graphs: A Roadmap综述笔记-入门-知识图谱KG-大模型LLM

最新推荐文章于 2025-04-17 14:10:54 发布

原创

最新推荐文章于 2025-04-17 14:10:54 发布 · 2.2k 阅读

39 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #知识图谱 #笔记

本文概述了大型语言模型（LLMs）与知识图谱（KGs）的统一，旨在增强LLMs的推理和解释性，同时改进KGs的构建和进化。研究集中在三个方面：KG增强的LLMs、LLM增强的KGs和两者协同工作。KG增强的LLMs通过预训练和推理阶段融入KG，提高知识理解；LLM增强的KGs利用LLMs进行KG任务，如嵌入、补全和问答系统；协同工作则通过数据和知识驱动的双向推理增强两者能力。未来方向涉及LLMs的幻觉检测、知识编辑和多模态集成。

论文信息

标题：Unifying Large Language Models and Knowledge Graphs: A Roadmap

作者：Shirui Pan

摘要

LLMs，例如chatGPT和GPT4，由于其涌现能力和泛化性，对自然语言理解和人工智能领域产生了新的冲击。

然而，LLMs是一个黑箱模型，往往缺乏捕获和获得事实知识。相反，知识图谱，例如维基百科等，是有结构模型。存储着丰富的事实知识。KGs可以通过提供额外的知识去增强大语言模型的推理和解释性。同时，知识图谱也很难去自然构造和进化，对于现有的知识图谱方法来说，生成新的事实和表示未知数据是一个挑战。因此，统一LLMs和KG，同时利用他们的优点是一种补充。

在这篇文章中，我们提出了统一LLMs和KG的路线图。我们的路线图包含三个通用框架：

KG-enhanced LLMs：在LLMs的预训练和推理阶段，融入KG，增强对LLMs学到的知识的理解。
LLM-augmented KGs：利用LLMs执行知识图谱的各项任务，例如嵌入，补全，构造，图-文本生成以及问答系统。
Synergized LLMs+KGs：LLMs和KGs发挥平等作用，相互合作，以数据和知识驱动的双向推理方式增强LLMs和KGs的能力
我们在路线图中回顾和总结了这三个框架内的现有成果，并指出了它们未来的研究方向。

背景

KGs

优点
- 结构化
- 准确率
- 确定性
- 可解释性
- 领域专业知识

缺点
- 不够完整
- 语言理解能力匮乏
- 对没见过的数据泛化性差

LLMs

优点
- 通用知识
- 语言处理
- 泛化性强

缺点
- 隐式知识（implicit）
- 幻觉（Hallucination）
- 犹豫（indecisiveness）
- 缺乏领域/新知识

KGs中现有方法的不足
- 不能对新事物或关系进行有效处理
- 忽略大量的文本信息
- 泛化能力较差

LLM可以帮助KG更好的利用和理解文本信息。

大模型分类

	encoder-only	encoder-decoder	decoder-only
代表模型	Bert	T5	GPT
训练方法	predict masked words	masking and predicting spans of masking words	predict the next word
下游任务	文本分类，实体命名	summariaztion, translation, and question answering	generally perform downstream tasks from a few examples or simple instructions

知识图谱分类

encyclopedic KGs	commonsense KGs	domain-specific KGs	multimodal KGs
百科知识图谱	常识知识图谱	领域知识图谱	多模态知识图谱

研究内容

LLMs和KGs统一的三种通用框架：

KG-enhanced LLMs
LLM-augmented KGs
Synergized LLMs + KGs

KG-enhanced LLMs

在预训练阶段，融入KGs
在推理阶段，融入KGs
利用KGs解释事实和LLMs的推理过程

LLM-augmented KGs

将LLMs作为 text encoder用于知识图谱的相关任务。

take advantage of LLMs to process the textual corpus in the KGs and then use the representations of the text to enrich KGs representation
借助LLMs提取关系和实体。
设计一个KG promot，将结构化的KGs高效地转换成LLMs可以理解的格式，从而LLMs可以直接作用于KG相关的任务。