Confidence Estimation for Text-to-SQL in Large Language Models

一、文章主要内容

本文聚焦大语言模型(LLMs)在文本到SQL(Text-to-SQL)任务中的置信度估计问题,旨在无需参考标准答案的情况下,评估模型生成SQL查询的可靠性,以解决LLMs生成SQL查询时准确性难以保障、用户无法验证查询正确性的核心痛点,尤其针对企业场景中低SQL知识用户的使用需求。

1. 研究背景与问题

  • LLMs虽在Text-to-SQL任务中表现出色,能将自然语言查询转化为SQL语句,助力非技术用户与数据库交互,但因生成查询的准确性无法保障,难以在企业场景大规模部署——低SQL知识用户无法验证查询是否符合自身需求,错误查询可能导致数据检索失误与决策偏差。
  • 现有深度神经网络不确定性估计技术(如蒙特卡洛 dropout、深度集成)因模型内部结构和训练数据访问受限,难以应用于闭源LLMs;且Text-to-SQL领域对不确定性的研究较少,仅少数研究涉及查询弃权与校准,代码生成(尤其是Text-to-SQL)的不确定性仍缺乏深入理解。

2. 研究方法

文章提出三类置信度估计策略,并设计了SQL感知的logit聚合方法(SAC),同时对比黑盒与白盒两种技术路径:

(1)黑盒方法(依赖模型输出,不访问内部结构)
  • 语言化置信度(Verbalized Confidence):通过提示让LLM生成SQL查询时同步输出置信度,包含三种变体——基础语言化(直接指令生成0-100分置信度)、思维链语言化(加入“逐步推理”示例
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值