Text2Cypher：大语言模型驱动的图查询生成

原创

于 2023-09-19 17:08:01 发布 · 1.2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #数据库 #人工智能

本文介绍了在大语言模型如GPT-3的支持下，如何通过Text2Cypher将自然语言转换为图数据库查询，降低了图数据库的查询门槛。作者展示了利用LLM进行图查询的简化过程，并提及了LlamaIndex和LangChain等工具在实现这一技术中的作用。

话接上文《图技术在 LLM 下的应用：知识图谱驱动的大语言模型 Llama Index》同大家简单介绍过 LLM 和图、知识图谱相关的结合，现在我来和大家分享下最新的成果。毕竟，从 GPT-3 开始展现出超出预期的“理解能力“开始，我一直在做 Graph + LLM 技术组合、互补的研究、探索和分享，截止到现在 NebulaGraph 已经在 LlamaIndex 与 Langchain 项目做出了不少领先的贡献。

是时候，来给你展示展示我的劳动成果了。本文的主题是我们认为这个 LLM+ 领域最唾手可得、最容易摘取的果实，Text2Cypher：自然语言生成图查询。

Text2Cypher

顾名思义，Text2Cypher 做的就是把自然语言的文本转换成 Cypher 查询语句的这件事儿。和另一个大家可能已经比较熟悉的场景 Text2SQL：文本转换 SQL 在形式上没有什么区别。而本质上，大多数知识图谱、图数据库的应用都是在图上按照人类意愿进行查询，我们在图数据库上构造方便的可视化工具、封装方便的 API 的工作都是为这个目标服务的。

一直以来，阻碍图数据库、知识图谱被更广泛应用的主要因素可能就是图数据库的查询门槛了。那么，在没有大语言模型的时候，我们是怎么做的呢？

传统的 Text2Cypher

文本到查询这个领域，在大语言模型之前就一直存在这样的需求，一直是知识图谱最常见的应用之一，比如 KBQA（基于知识库的问答系统）的系统内部本质上就是 Text2Cypher。

这里以我之前写的项目 Siwi（发音：/ˈsɪwi/，一个基于篮球运动员数据集的问答应用）为例。

先来了解一下它的后端架构：

┌─────────────┬───────────────────────────────────┐
│      Speech │  Frontend                         │
│  ┌──────────▼──────────┐ Siwi, /ˈsɪwi/          │
│  │ Web_Speech_API      │ A PoC of Dialog System │
│  │ Vue.JS              │ With Graph Database    │
│  │                     │ Backed Knowledge Graph │
│  └──────────┬──────────┘                        │
│             │  Sentence  Backend                │
│┌────────────┼────────────────────────────┐      │
││ ┌──────────▼──────────┐                 │      │
││ │ Web API, Flask      │ ./app/          │      │
││ └──────────┬──────────┘                 │      │
││            │  Sentence  ./bot/          │      │
││ ┌──────────▼──────────┐                 │      │
││ │ Intent Matching,    │ ./bot/classifier│      │
││ │ Symentic Processing │                 │      │
││ └──────────┬──────────┘                 │      │
││            │  Intent, Enties            │      │
││ ┌──────────▼──────────┐                 │      │
││ │ Intent Actor        │ ./bot/actions   │      │
│└─┴──────────┬──────────┴─────────────────┘      │
│             │  Graph Query                      │
│  ┌──────────▼──────────┐                        │
│  │ Graph Database      │  NebulaGraph           │
│  └─────────────────────┘                        │
└─────────────────────────────────────────────────┘

当一个问题语句发送过来之后，它首先要做意图识别（Intent）、实体识别（Entity），然后再利用 NLP 模型或者代码把相应的意图和实体构造成知识图谱的查询语句，最终查询图数据库，并根据返回结果构造答案