本文是LLM系列文章,针对《CHATEVAL: TOWARDS BETTER LLM-BASED EVALUATORS THROUGH MULTI-AGENT DEBATE》的翻译。
摘要
文本评估在历史上提出了重大挑战,通常需要大量的人力和时间成本。随着大型语言模型(LLM)的出现,研究人员探索了LLM作为人类评估替代品的潜力。虽然这些基于单智能体的方法显示出了前景,但实验结果表明,还需要进一步的进步来弥补其目前的有效性和人类水平的评估质量之间的差距。认识到人类评估过程的最佳实践通常涉及多个人类注释器在评估中的协作,我们求助于多智能体辩论框架,超越了单一智能体的提示策略。基于多代理的方法使一组LLM能够与一系列智能同行协同工作,利用他们独特的能力和专业知识来提高处理复杂任务的效率和有效性。在本文中,我们构建了一个名为ChatEval的多智能体裁判团队,以自主讨论和评估不同模型对开放式问题和传统自然语言生成(NLG)任务生成的回答的质量。我们从实际场景中获得见解和教训,在这些场景中,人类发起小组讨论进行头脑风暴,并在ChatEval中提出不同的沟通策略。我们在两个基准任务上的实验表明,ChatEval提供了与人类评估一致的卓越准确性和相关性。此外,我们发现不同的角色提示(不同的人物角色)在多智能体辩论过程中是必不可少的;也就是说,在提示中使用相同的角色