ChatGPT 论文：Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models (一)

原创

已于 2024-01-09 22:54:41 修改 · 1.2k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#chatgpt #sql #语言模型

于 2024-01-08 22:49:10 首次发布

摘要

上下文学习（ICL）已成为处理各种自然语言处理任务的一种新方法，它利用大型语言模型（LLM）根据上下文进行预测，并辅以一些示例或特定于任务的指令。在本文中，我们的目标是将这种方法扩展到利用结构化知识源的问答任务，并通过探索使用LLM的各种提示设计策略来改进文本到 SQL 系统。我们对不同的演示选择方法和最佳指令格式进行了系统研究，以提升LLM在文本到 SQL 任务中的表现。我们的方法涉及利用示例的 SQL 查询的语法结构来检索演示，并且我们证明在演示选择中追求多样性和相似性可以提高性能。此外，我们表明LLM受益于数据库相关的知识扩充。在 Spider 数据集上，我们最有效的策略比最先进的系统高 2.5 点（执行精度），比最佳微调系统高 5.1 点。这些结果突出了我们的方法在使LLM适应文本到 SQL 任务方面的有效性，并且我们对促成我们的策略成功的因素进行了分析。

1.简介

我们的研究重点是探索文本到 SQL 领域语义解析任务的各种提示设计策略。我们对 Text-to-SQL 数据集上的不同演示示例选择标准和指令格式进行了系统调查。具体来说，我们建议采用示例的 SQL 语法结构作为检索演示的基础，从而有助于更准确地表示问题结构。我们的方法表明，选择同时强调多样性和相似性目标的演示示例可以最大限度地提高性能。我们的研究还表明，LLM在某些情况下可以从数据库相关的知识扩充中受益。通过实验，我们确定了最有效的策略，该策略在 Spider 数据集上的执行准确度得分为 84.4。该分数比当前最先进的系统高 2.5 分（Ni 等人，2023），比最佳微调系统高 5.1 分（Scholak 等人，2021）。这些结果证明了我们的情境学习方案在使LLM适应我们的目标任务方面的有效性。此外，我们还对促成我们战略成功的因素进行了实证研究和分析。