SIMBA UQ: Similarity-Based Aggregation for Uncertainty Quantification in Large Language Models

该文章提出了一种基于相似度聚合的LLM不确定性量化(UQ)框架SIMBA UQ,通过多代样本间的一致性评估生成结果的置信度,在问答、摘要生成和文本转SQL任务中展现出更优的校准性能。

一、文章主要内容总结

  1. 研究背景与目标
    • 不确定性量化(UQ)是可信AI系统的关键,用于评估LLM生成结果的置信度,但现有方法存在黑箱适配性差、过度自信等问题。
    • 核心目标:提出通用的黑箱友好型UQ框架,利用多代样本间的相似度评估置信度,适配问答(QA)、摘要生成、文本转SQL等复杂生成任务。
  2. 核心框架:SIMBA UQ
    • 三阶段流程:首先通过多温度采样生成多个LLM输出样本;然后计算样本间的 pairwise 相似度(如Jaccard、ROUGE);最后通过相似度聚合得到每个样本的置信度。
    • 聚合方式:包含简单聚合(如算术平均)、贝叶斯聚合(以相似度为证据更新置信度)、分类聚合(将相似度作为特征训练置信度分类模型)三种具体实现。
  3. 实验设计与结果
    • 数据集:覆盖9个数据集,每种任务(QA、摘要、文本转SQL)各3个(如CoQA、XSum、Spider)。
    • 模型:使用LLaMA 3.3 70B、Granite 3.1 8B等开源模型,文本转SQL任务额外使用代码专用模型Codellama 34B。
    • 关键结果:分类聚合(如clf-pairs、clf
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值