本文是LLM系列文章,针对《Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate》的翻译。
大型语言模型的评估是否可信?基于Agent辩论的LLM作为评估者的可扩展元评估
摘要
尽管大型语言模型(LLM)在各种任务和场景中都很有用,但开发一种在不同背景下可靠评估LLM的方法仍然具有挑战性。现代评估方法通常使用LLM来评估LLM产生的反应。然而,为评估这些LLM作为评估者的有效性而进行的元评估通常受到现有基准覆盖范围的限制,或者需要大量的人工注释。这突出了可扩展元评估方法的紧迫性,该方法可以有效、可靠、高效地评估LLM作为评估者在不同任务和场景中的性能,特别是在潜在的新的用户定义场景中。为了填补这一空白,我们提出了SCALEEVAL,这是一个代理辩论辅助的元评估框架,利用了多个交际LLM代理的能力。该框架支持多轮讨论,以帮助注释人员将最有能力的LLM识别为评估者,这大大减轻了他们在元评估期间需要大规模注释的情况下的工作量。我们发布了框架的代码,可在以下网址公开获取:https://github.com/GAIR-NLP/scaleeval。