该文章提出了一种基于相似度聚合的LLM不确定性量化(UQ)框架SIMBA UQ,通过多代样本间的一致性评估生成结果的置信度,在问答、摘要生成和文本转SQL任务中展现出更优的校准性能。
一、文章主要内容总结
- 研究背景与目标
- 不确定性量化(UQ)是可信AI系统的关键,用于评估LLM生成结果的置信度,但现有方法存在黑箱适配性差、过度自信等问题。
- 核心目标:提出通用的黑箱友好型UQ框架,利用多代样本间的相似度评估置信度,适配问答(QA)、摘要生成、文本转SQL等复杂生成任务。
- 核心框架:SIMBA UQ
- 三阶段流程:首先通过多温度采样生成多个LLM输出样本;然后计算样本间的 pairwise 相似度(如Jaccard、ROUGE);最后通过相似度聚合得到每个样本的置信度。
- 聚合方式:包含简单聚合(如算术平均)、贝叶斯聚合(以相似度为证据更新置信度)、分类聚合(将相似度作为特征训练置信度分类模型)三种具体实现。
- 实验设计与结果
- 数据集:覆盖9个数据集,每种任务(QA、摘要、文本转SQL)各3个(如CoQA、XSum、Spider)。
- 模型:使用LLaMA 3.3 70B、Granite 3.1 8B等开源模型,文本转SQL任务额外使用代码专用模型Codellama 34B。
- 关键结果:分类聚合(如clf-pairs、clf
订阅专栏 解锁全文
1354

被折叠的 条评论
为什么被折叠?



