ChatGPT 论文:Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models (一)
3 实验
3.1 实验设置
数据集
Spider:复杂文本到SQL问题的跨领域数据集。
Spider-Syn:使用同义词替换Spider问题中的模式相关词汇,评估系统的鲁棒性。
Spider-DK:在Spider示例中添加领域知识,评估跨领域泛化能力。
Spider-Realistic:去除列名的明确提及,模拟更现实的文本-表格对齐设置。
模型
使用Codex(基于GPT-3的变体)和ChatGPT (gpt-3.5-turbo)来评估不同ICL策略。
Codex在1到10-shot范围内提供结果,而ChatGPT因最大上下文长度限制仅提供1到5-shot的结果。
评估指标
使用执行准确度作为所有实验的评估指标。
Baseline
主要分为Few-shot和Zero-shot上的实验,包括:
Few-shot
- Random sampling ®: 从样本池中随机选择示例。
- Similarity sampling (S)
- Diversity sampling (D): 从样本池的k-Means聚类中选择多样化示例。 <