Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents

摘要

基于大语言模型(LLMs)的智能体系统在超越传统自然语言处理任务的现实应用中取得了巨大进展。本文提出了一种新的由大语言模型驱动的多智能体系统(LLM-MAS)基准测试平台Collab-Overcooked,它基于广受欢迎的Overcooked-AI游戏构建,在交互式环境中设置了更具实用性和挑战性的任务。Collab-Overcooked从两个全新的角度扩展了现有基准。第一,它提供了一个支持多种任务和目标的多智能体框架,并鼓励通过自然语言通信进行协作。第二,它引入了一系列面向过程的评估指标,以评估不同大语言模型智能体的细粒度协作能力,这是以往工作中常常被忽视的一个维度。我们对10种流行的大语言模型进行了广泛的实验,结果表明,虽然大语言模型在目标理解方面表现出很强的能力,但在主动协作和持续适应方面存在显著差异,而这对于高效完成复杂任务至关重要。值得注意的是,我们突出了大语言模型驱动的多智能体系统的优势和不足,并在一个统一的开源基准上为改进和评估大语言模型驱动的多智能体系统提供了见解。相关环境、30个开放式任务和一个集成评估包现已在https://github.com/YusaeMeow/Collab-Overcooked上公开。

引言

凭借大语言模型(LLMs)卓越的零样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值