【General Agent Benchmark】论文分享：AgentBench

原创已于 2025-06-02 10:24:22 修改 · 1.5k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习 #python

于 2025-05-17 09:20:47 首次发布

General Evaluation 专栏收录该内容

9 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

论文名称：AgentBench: Evaluating LLMs as Agents

论文链接：https://arxiv.org/abs/2308.03688

机构：清华 ChatGLM 团队

Github 链接：https://github.com/THUDM/AgentBench

官方界面：https://llmbench.ai/agent

简介

AgentBench是由清华大学KEG与数据挖掘团队提出的综合性基准测试，旨在系统评估AIAgent在复杂交互环境中的综合能力，也是第一个在不同环境中评估LLM as Agent的Benchmark。

评估维度

在这里插入图片描述

团队认为Agent能力主要包含八个部分：① 理解人类意图并执行指令；② 编码能力；③ 知识获取和推理；④ 策略决策；⑤ 多轮一致性；⑥ 逻辑推理；⑦ 自主探索；⑧ 可解释的推理。

只有LLM能完成上述具体任务，才可能承担好 AI Agent的工作。为了达成上述评估目标，作者首先新创建了5个环境，评估LLM as Agent的能力：

① 操作系统（OS）：评估LLM在Linux系统的bash环境中的操作能力，如文件操作、用户管理等。

② 数据库（DB）：考察LLM利用SQL操作给定的数据库完成查询、修改等任务。

③ 知识图谱（KG）：需要LLM利用给定的工具查询知识图谱，完成复杂的知识获取任务。

④ 卡牌游戏（DCG）：将LLM视为玩家，根据规则和状态进行数字卡牌游戏，评估策略决策能力。

⑤ 横向思维难题（LTP）：提供难题故事，LLM需要进行问答来推理得到真相，检查横向思维能力。

以及从已发布的数据集重新编译的3个环境数据:

⑥ 家庭环境（HH）：在模拟的家中场景下，LLM需要自主完成日常任务，如搬移物品等。

⑦ 网络购物（WS）：按照要求在模拟购物网站上浏览和购买商品，评估自主探索决策能力。

⑧ 网页浏览（WB）：在真实网页环境中，根据高级指令实现操作序列，完成网页任务。

使用方法

官方的 Github 界面已经给出详细的操作指南，主要分为四步：环境配置 -> 配置Agent -> 启动任务服务器 -> 启动任务测试。因为涉及到多个任务，所以需要分别起服务评测，资源消耗情况大致如下:：

在这里插入图片描述

评价指标

核心指标

综合得分(Overall Score)

各场景得分的加权平均，反映模型作为Agent的综合能力。

在这里插入图片描述

辅助指标

分场景成功率（Success Rate）

各任务独立计算完成率，揭示模型能力短板。

失败模式分布（Failure Mode Analysis）

统计10类失败原因（如错误工具调用、逻辑推理错误），指导针对性优化。

效率指标（Steps&Time Cost）

评估任务完成所需交互轮次与耗时，衡量Agent决策效率。

在这里插入图片描述

总结

评测集设计比较全面，但聚焦的评测维度是LLM As Agent所具备的原子能力，对于Agent能否顺利且完整的完成一个现实任务的过程并没有做评测，与GAIA能形成互补的局面。

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调

LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型（Large Language Model）训练与微调平台。通过 LLaMA Factory，可以在无需编写任何代码的前提下，在本地完成上百种预训练模型的微调

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

依然易冷 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。