Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents

最新推荐文章于 2026-01-09 21:51:15 发布

原创最新推荐文章于 2026-01-09 21:51:15 发布 · 209 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

LLM Daily 同时被 3 个专栏收录

1838 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Evaluation

99 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Agent

106 篇文章

订阅专栏

摘要

基于大语言模型（LLMs）的智能体系统在超越传统自然语言处理任务的现实应用中取得了巨大进展。本文提出了一种新的由大语言模型驱动的多智能体系统（LLM-MAS）基准测试平台Collab-Overcooked，它基于广受欢迎的Overcooked-AI游戏构建，在交互式环境中设置了更具实用性和挑战性的任务。Collab-Overcooked从两个全新的角度扩展了现有基准。第一，它提供了一个支持多种任务和目标的多智能体框架，并鼓励通过自然语言通信进行协作。第二，它引入了一系列面向过程的评估指标，以评估不同大语言模型智能体的细粒度协作能力，这是以往工作中常常被忽视的一个维度。我们对10种流行的大语言模型进行了广泛的实验，结果表明，虽然大语言模型在目标理解方面表现出很强的能力，但在主动协作和持续适应方面存在显著差异，而这对于高效完成复杂任务至关重要。值得注意的是，我们突出了大语言模型驱动的多智能体系统的优势和不足，并在一个统一的开源基准上为改进和评估大语言模型驱动的多智能体系统提供了见解。相关环境、30个开放式任务和一个集成评估包现已在https://github.com/YusaeMeow/Collab-Overcooked上公开。

引言

凭借大语言模型（LLMs）卓越的零样本和少样本学习能力，基于大语言模型的智能体在复杂任务分解和规划方面展现出了潜力（Wang等人，2023a，c；Li等人，2024）。受人类在社会活动中协作行为的启发，最近的研究表明，多智能体系统可以显著提高任务效率，并应对单智能体能力之外的挑战（Li等人，2023；