ChatGPT论文:Evaluating the Text-to-SQL Capabilities of Large Language Models 评估大语言模型的文本到 SQL 的功能 (二)

摘要

我们对 Codex 语言模型的文本到 SQL 功能进行了实证评估。 我们发现,在没有任何微调的情况下,Codex 是 Spider 基准测试的强大基线; 我们还分析了 Codex 在此设置下的故障模式。 此外,我们在 GeoQuery 和 Scholar 基准测试中证明,提示中提供的少量域内示例使 Codex 的性能优于在此类少数示例上进行微调的最先进模型。

ChatGPT论文:Evaluating the Text-to-SQL Capabilities of Large Language Models 评估大语言模型的文本到 SQL 的功能 (一)

3 零样本结果

我们在表 1 中列出了不同模型大小的结果,在表 2 中列出了不同提示样式的结果。附录 B 中的表 4 提供了完整的结果。

Codex 为文本到 SQL 任务提供了强大的基线

表 1 中表现最佳模型(davinci-codex,Create Table + Select 3)在Spider上实现了67%的执行准确率和56.5%的测试套件执行准确率。 这与 BRIDGE v2(Lin 等人,2020)模型的性能相当,该模型在 2020 年 12 月实现了(当时)最先进的 68% 执行精度。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值