该文章提出了一种基于贝叶斯框架的大型语言模型(LLM)评估方法“Bayes@N”,旨在解决现有Pass@k指标排名不稳定、无法量化不确定性等问题,通过 Dirichlet 先验建模分类结果,实现更稳定、高效且透明的模型评估与排名。
一、文章主要内容总结
- 现有评估方法的局限性
- Pass@k 是LLM推理性能评估的常用指标,但在试验样本有限、计算资源受限的场景下,易产生不稳定、误导性的排名,且难以量化不确定性。
- 平均准确率(avg@N)虽能缓解部分问题,但计算成本高,无法统一处理分级评估结果,也缺乏判断性能差异显著性的原则性规则。
- 贝叶斯评估框架核心设计
- 分类结果建模:将评估结果视为分类变量(如正确、部分正确、格式错误等),而非仅0/1二元结果,通过 Dirichlet 先验分布建模,可处理任意加权评分规则。
- 后验估计与不确定性量化:推导得到后验均值(模型真实成功概率的估计)和可信区间的闭合解,能明确判断观测到的性能差距是统计显著(可信区间不重叠)还是噪声。
- 与平均准确率的等价性:在均匀先验下,贝叶斯后验均值与平均准确率(Pass@1)排序等价,既保留了 avg@N 的实证稳健性,又增加了不确定性量化能力。
- 实验验证与结果

订阅专栏 解锁全文
929

被折叠的 条评论
为什么被折叠?



