LLM在text2sql上的应用 | 京东云技术团队

原创

于 2023-10-25 11:39:39 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

文章探讨了Text2SQL技术如何帮助用户通过自然语言查询数据库，介绍了两种应用方法：直接使用大模型和微调开源模型。同时关注了数据隐私问题，提出通过构建schema和prompt来提高模型理解并确保数据安全。

一、前言：

目前，大模型的一个热门应用方向text2sql它可以帮助用户快速生成想要查询的SQL语句。那对于用户来说，大部分简单的sql都是正确的，但对于一些复杂逻辑来说，需要用户在产出SQL的基础上进行简单修改，Text2SQL应用主要还是帮助用户去解决开发时间，减少开发成本。

Text to SQL：简称Text2SQl，是将自然语言文本（Text）转换成结构化查询语言SQL的过程，属于自然语言处理-语义分析（Semantic Parsing）领域中的子任务。

它的目的可以简单概括为：“打破人与结构化数据之间的壁垒”，即普通用户可以通过自然语言描述完成复杂数据库的查询工作，得到想要的结果。

目前大家对T2S的做法大致分为两种，

一种是用现有的大模型来直接生成，例如ChatGPT、GPT-4模型，但是对于一些公司来说，数据是属于保密资产，这种方式相当于将自己公司的数据信息透漏给大模型，属于数据泄露行为；
另一种方式是利用开源的大模型做finetune，比如chatglm2-6b来做微调，这个也是目前我们在做的，同时开源的数据集也有很多，简单罗列如下：

数据集	数据集介绍
WikiSQL	WikiSQL是一个大型的语义解析数据集，由80,654个自然语句表述和24,241张表格的sql标注构成。 WikiSQL中每一个问句的查询范围仅限于同一张表，不包含排序、分组、子查询等复杂操作。虽然数据规模大，SQL语法却非常简单；适合做NL2SQL任务入门。
Spider	耶鲁大学在2018年新提出的一个大规模的NL2SQL