【General Agent Benchmark】论文分享:WorfBench

论文名称:Benchmarking Agentic Workflow Generation

论文链接:https://arxiv.org/abs/2410.07869

机构:浙大 + 通义

Github 链接:https://github.com/zjunlp/WorfBench?tab=readme-ov-file

简介

WorfBench是由浙江大学与通义团队联合推出的Agent工作流生成评测基准,旨在系统性评估Agent在复杂任务规划中的结构化工作流生成能力

在这里插入图片描述

评测集

评测集包含问题解决(problem solving)、函数调用(function calling)、具身规划(embodied planning)和开放式规划(open-ended planning),并采用有向无环图(DAG)建模工作流。示例场景包括多步API调用、跨工具协作等。

在这里插入图片描述

使用方法

数据集划分与应用

① 训练集(18k):用于模型微调,提升结构化工作流生成能力。

② 测试集(2146):评估模型在已知任务上的性能,覆盖多场景与复杂图结构。

③ OOD任务集(723):验证模型对未见过任务的泛化能力,例如跨领域任务迁移。

模型评估流程

① 输入:任务的自然语言描述。

② 输出:模型生成的工作流(DAG形式)。

评价指标

线性规划能力

通过子序列匹配算法衡量链式工作流的准确性(如步骤顺序是否合理)。

图规划能力

通过子图匹配算法量化DAG结构的正确性(如并行任务依赖关系是否准确)。

在这里插入图片描述

总结

顾名思义,WorfBench就是评价LLM As Agent时,生成结构化Workflow工作流的能力,类似是评估LLM的Planning 的能力,能为模型选型提供好的建议,但用来评估完整的Agent能力,显得不够。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

依然易冷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值