一、文章主要内容
本文聚焦大语言模型(LLMs)在文本到SQL(Text-to-SQL)任务中的置信度估计问题,旨在无需参考标准答案的情况下,评估模型生成SQL查询的可靠性,以解决LLMs生成SQL查询时准确性难以保障、用户无法验证查询正确性的核心痛点,尤其针对企业场景中低SQL知识用户的使用需求。
1. 研究背景与问题
- LLMs虽在Text-to-SQL任务中表现出色,能将自然语言查询转化为SQL语句,助力非技术用户与数据库交互,但因生成查询的准确性无法保障,难以在企业场景大规模部署——低SQL知识用户无法验证查询是否符合自身需求,错误查询可能导致数据检索失误与决策偏差。
- 现有深度神经网络不确定性估计技术(如蒙特卡洛 dropout、深度集成)因模型内部结构和训练数据访问受限,难以应用于闭源LLMs;且Text-to-SQL领域对不确定性的研究较少,仅少数研究涉及查询弃权与校准,代码生成(尤其是Text-to-SQL)的不确定性仍缺乏深入理解。
2. 研究方法
文章提出三类置信度估计策略,并设计了SQL感知的logit聚合方法(SAC),同时对比黑盒与白盒两种技术路径:
(1)黑盒方法(依赖模型输出,不访问内部结构)
- 语言化置信度(Verbalized Confidence):通过提示让LLM生成SQL查询时同步输出置信度,包含三种变体——基础语言化(直接指令生成0-100分置信度)、思维链语言化(加入“逐步推理”示例
订阅专栏 解锁全文
706

被折叠的 条评论
为什么被折叠?



