ChatGPT 论文:Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models (二)

ChatGPT 论文:Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models (一)

3 实验

3.1 实验设置

数据集

Spider:复杂文本到SQL问题的跨领域数据集。
Spider-Syn:使用同义词替换Spider问题中的模式相关词汇,评估系统的鲁棒性。
Spider-DK:在Spider示例中添加领域知识,评估跨领域泛化能力。
Spider-Realistic:去除列名的明确提及,模拟更现实的文本-表格对齐设置。

模型

使用Codex(基于GPT-3的变体)和ChatGPT (gpt-3.5-turbo)来评估不同ICL策略。
Codex在1到10-shot范围内提供结果,而ChatGPT因最大上下文长度限制仅提供1到5-shot的结果。

评估指标

使用执行准确度作为所有实验的评估指标。

Baseline

主要分为Few-shot和Zero-shot上的实验,包括:

Few-shot
  • Random sampling ®: 从样本池中随机选择示例。
  • Similarity sampling (S)
  • Diversity sampling (D): 从样本池的k-Means聚类中选择多样化示例。
  • Similarity-Diversity sampling (SD): 根据算法1选择示例。
  • SD + schema augmentation (SA):
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值