【General Agent Benchmark】论文分享:AgentBench

部署运行你感兴趣的模型镜像

论文名称:AgentBench: Evaluating LLMs as Agents

论文链接:https://arxiv.org/abs/2308.03688

机构:清华 ChatGLM 团队

Github 链接:https://github.com/THUDM/AgentBench

官方界面:https://llmbench.ai/agent

简介

AgentBench是由清华大学KEG与数据挖掘团队提出的综合性基准测试,旨在系统评估AIAgent在复杂交互环境中的综合能力,也是第一个在不同环境中评估LLM as Agent的Benchmark。

评估维度

在这里插入图片描述

团队认为Agent能力主要包含八个部分:① 理解人类意图并执行指令;② 编码能力;③ 知识获取和推理;④ 策略决策;⑤ 多轮一致性;⑥ 逻辑推理;⑦ 自主探索;⑧ 可解释的推理。

只有LLM能完成上述具体任务,才可能承担好 AI Agent的工作。为了达成上述评估目标,作者首先新创建了5个环境,评估LLM as Agent的能力:

① 操作系统(OS):评估LLM在Linux系统的bash环境中的操作能力,如文件操作、用户管理等。

② 数据库(DB):考察LLM利用SQL操作给定的数据库完成查询、修改等任务。

③ 知识图谱(KG):需要LLM利用给定的工具查询知识图谱,完成复杂的知识获取任务。

④ 卡牌游戏(DCG):将LLM视为玩家,根据规则和状态进行数字卡牌游戏,评估策略决策能力。

⑤ 横向思维难题(LTP):提供难题故事,LLM需要进行问答来推理得到真相,检查横向思维能力。

以及从已发布的数据集重新编译的3个环境数据:

⑥ 家庭环境(HH):在模拟的家中场景下,LLM需要自主完成日常任务,如搬移物品等。

⑦ 网络购物(WS):按照要求在模拟购物网站上浏览和购买商品,评估自主探索决策能力。

⑧ 网页浏览(WB):在真实网页环境中,根据高级指令实现操作序列,完成网页任务。

使用方法

官方的 Github 界面已经给出详细的操作指南,主要分为四步:环境配置 -> 配置Agent -> 启动任务服务器 -> 启动任务测试。因为涉及到多个任务,所以需要分别起服务评测,资源消耗情况大致如下::

在这里插入图片描述

评价指标

核心指标

  • 综合得分(Overall Score)

各场景得分的加权平均,反映模型作为Agent的综合能力。

在这里插入图片描述

辅助指标

  • 分场景成功率(Success Rate)

各任务独立计算完成率,揭示模型能力短板。

  • 失败模式分布(Failure Mode Analysis)

统计10类失败原因(如错误工具调用、逻辑推理错误),指导针对性优化。

  • 效率指标(Steps&Time Cost)

评估任务完成所需交互轮次与耗时,衡量Agent决策效率。

在这里插入图片描述

总结

评测集设计比较全面,但聚焦的评测维度是LLM As Agent所具备的原子能力,对于Agent能否顺利且完整的完成一个现实任务的过程并没有做评测,与GAIA能形成互补的局面。

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

依然易冷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值