本文是LLM系列文章,针对《CRITICBENCH: Evaluating Large Language Models as Critic》的翻译。
摘要
批评能力对于大型语言模型(LLM)的可扩展监督和自我完善至关重要。尽管最近的许多研究探索了LLM在生成中判断和完善缺陷的批判能力,但如何全面可靠地衡量LLM的批判能力却没有得到充分的探索。本文介绍了CRITICBENCH,这是一种新的基准,旨在全面可靠地评估LLM的四个关键批评能力维度:反馈、比较、提炼和元反馈。CRITICBENCH包括九个不同的任务,每个任务都评估LLM在不同质量粒度水平上批评响应的能力。我们对开源和闭源LLM的广泛评估揭示了批判能力与任务、反应质量和模型规模之间的有趣关系。CRITICBENCH的数据集、资源和评估工具包将发布在https://github.com/open-compass/CriticBench.
1 引言
2 前言
3 CRITICBENCH构建
4 评估指标
5 评估和分析
6 结论
7 结论和未来工作
在本文中,我们介绍了一个系统而全面的基准,名为C

CRITICBENCH是一个新基准,全面评估LLM的反馈、比较、提炼和元反馈能力。通过九个任务测试不同质量级别的批评能力,揭示了模型规模、任务和响应质量的关系,推动LLM的自我完善和监督。未来将扩展任务、语言和评估协议。
订阅专栏 解锁全文
1497

被折叠的 条评论
为什么被折叠?



