2025_NIPS_PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation

在这里插入图片描述

文章主要内容与创新点总结

一、主要内容

  1. 研究背景:大语言模型(LLMs)在文本到SQL(Text-to-SQL)任务中效果显著,但跨系统SQL翻译(SQL-to-SQL)这一具有重要实际意义的任务仍未得到充分探索。现有SQL基准测试存在局限性,仅聚焦少数数据库系统(多为SQLite),且无法覆盖大量系统特定的SQL方言(如自定义函数、数据类型、语法规则等),难以满足跨系统SQL翻译的评估需求。
  2. PARROT基准测试介绍:提出PARROT(Practical And Realistic BenchmaRk for CrOss-System SQL Translation),这是首个专门用于跨系统SQL翻译评估的大规模数据集与评估套件,涵盖22个生产级数据库系统。包含三个核心变体:
    • 主数据集:598个经人工验证的翻译对,源自38个公开基准测试和真实业务场景;
    • PARROT-Diverse:28,003个翻译样本,用于广泛的语法测试;
    • PARROT-Simple:5,306个代表性样本,用于针对性压力测试。
  3. 构建方法:通过开源领域(38个基准测试、代码仓库测试用例)和私有领域(字节跳动ByteHouse业务场景
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值