摘要
ChatGPT的成功引发了一场AI竞赛,研究人员致力于开发新的大型语言模型(LLMs),以匹敌或超越商业模型的语言理解和生成能力。近期,许多声称其性能接近GPT-3.5或GPT-4的模型通过各种指令调优方法出现了。作为文本到SQL解析的从业者,我们感谢他们对开源研究的宝贵贡献。然而,重要的是要带着审查意识去看待这些声明,并确定这些模型的实际有效性。因此,我们将六个流行的大型语言模型相互对比,系统评估它们在九个基准数据集上的文本到SQL解析能力,涵盖了五种不同的提示策略,包括零样本和少样本场景。遗憾的是,开源模型的性能远远低于像GPT-3.5这样的封闭源模型所取得的成绩,这凸显了进一步工作的需要,以弥合这些模型之间的性能差距。
1.简介
文本到 SQL 解析自动将用户输入的问题转换为 SQL 语句,从而能够从数据库中检索相关信息。 通过使用户能够用自然语言表达他们的目标,文本到 SQL 系统可以最大限度地减少非专家用户与关系数据库交互的技术障碍并提高生产力。
BERT(Devlin 等人,2019)和 T5(Raffel 等人,2020)等大型预训练语言模型的引入进一步提高了文本到 SQL 系统的性能。 研究人员一直在利用对这些模型的深刻理解来突破文本到 SQL 功能的界限。
最近,基于解码器的大型语言模型的突破(Brown et al., 2020b; Touvron et al., 2023)进一步彻底改变了 NLP 领域。 一个突出的趋势是追求训练越来越大的语言模型,包含数十亿个参数,并利用大量文本数据。 随后,使用基于指令的技术对这些模型进行微调,使它们能够更好地遵循人类生成的文本提示。<