ChatGPT论文:Evaluating the Text-to-SQL Capabilities of Large Language Models 评估大语言模型的文本到 SQL 的功能 (一)

摘要

我们对 Codex 语言模型的文本到 SQL 功能进行了实证评估。 我们发现,在没有任何微调的情况下,Codex 是 Spider 基准测试的强大基线; 我们还分析了 Codex 在此设置下的故障模式。 此外,我们在 GeoQuery 和 Scholar 基准测试中证明,提示中提供的少量域内示例使 Codex 的性能优于在此类少数示例上进行微调的最先进模型。

1.简介

1 简介
将自然语言问题转换为 SQL 查询(文本到 SQL)是一个重要的业务问题,引起了广泛的研究兴趣。

完成此任务的常见方法包括训练模型,以在给定问题、数据库模式以及可能的数据库内容作为输入时生成 SQL 查询。 该领域的一个明显趋势是对自然语言预训练的模型进行微调。值得注意的是,随着使用更大的预训练模型,性能显着提高(Shaw 等人,2021 年;Scholak 等人,2021 年)。

来自更广泛领域的最新结果表明,简单地扩展生成语言模型的训练数据和模型大小可以带来高级功能。在这项工作中,我们研究这些模型是否已经是有竞争力的文本到 SQL 解决方案,而无需对特定于任务的训练数据进行任何进一步的微调,评估 不同大小的 Codex 和 GPT-3 模型在文本到 SQL 基准测试中具有不同的提示。

我们发现 Codex 在 Spider 开发集上实现了高达 67% 的执行准确率,具有竞争力。 我们分析了自动评估判断为错误的预测查询,发现其中许多查询会被人类判断为正确,而其他查询可能会在无微调范式中修复。 最后,使用 GeoQuery 和 Scholar 基准测试,我们表明,通过用少量示例提示来使 Codex 适应特定领域,比在相同示例上微调较小

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值