论文名称:Benchmarking Agentic Workflow Generation
论文链接:https://arxiv.org/abs/2410.07869
机构:浙大 + 通义
Github 链接:https://github.com/zjunlp/WorfBench?tab=readme-ov-file
简介
WorfBench是由浙江大学与通义团队联合推出的Agent工作流生成评测基准,旨在系统性评估Agent在复杂任务规划中的结构化工作流生成能力。

评测集
评测集包含问题解决(problem solving)、函数调用(function calling)、具身规划(embodied planning)和开放式规划(open-ended planning),并采用有向无环图(DAG)建模工作流。示例场景包括多步API调用、跨工具协作等。

使用方法
数据集划分与应用
① 训练集(18k):用于模型微调,提升结构化工作流生成能力。
② 测试集(2146):评估模型在已知任务上的性能,覆盖多场景与复杂图结构。
③ OOD任务集(723):验证模型对未见过任务的泛化能力,例如跨领域任务迁移。
模型评估流程
① 输入:任务的自然语言描述。
② 输出:模型生成的工作流(DAG形式)。
评价指标
线性规划能力
通过子序列匹配算法衡量链式工作流的准确性(如步骤顺序是否合理)。
图规划能力
通过子图匹配算法量化DAG结构的正确性(如并行任务依赖关系是否准确)。

总结
顾名思义,WorfBench就是评价LLM As Agent时,生成结构化Workflow工作流的能力,类似是评估LLM的Planning 的能力,能为模型选型提供好的建议,但用来评估完整的Agent能力,显得不够。

被折叠的 条评论
为什么被折叠?



