摘要
基于大语言模型(LLMs)的智能体系统在超越传统自然语言处理任务的现实应用中取得了巨大进展。本文提出了一种新的由大语言模型驱动的多智能体系统(LLM-MAS)基准测试平台Collab-Overcooked,它基于广受欢迎的Overcooked-AI游戏构建,在交互式环境中设置了更具实用性和挑战性的任务。Collab-Overcooked从两个全新的角度扩展了现有基准。第一,它提供了一个支持多种任务和目标的多智能体框架,并鼓励通过自然语言通信进行协作。第二,它引入了一系列面向过程的评估指标,以评估不同大语言模型智能体的细粒度协作能力,这是以往工作中常常被忽视的一个维度。我们对10种流行的大语言模型进行了广泛的实验,结果表明,虽然大语言模型在目标理解方面表现出很强的能力,但在主动协作和持续适应方面存在显著差异,而这对于高效完成复杂任务至关重要。值得注意的是,我们突出了大语言模型驱动的多智能体系统的优势和不足,并在一个统一的开源基准上为改进和评估大语言模型驱动的多智能体系统提供了见解。相关环境、30个开放式任务和一个集成评估包现已在https://github.com/YusaeMeow/Collab-Overcooked上公开。
引言
凭借大语言模型(LLMs)卓越的零样