1. 由RPA到APA
流程自动化(Process Automation,PA)旨在让重复任务自动化,从而减少人力投入,提升效率。回溯到农业时代,人类就借助水车和牛来实现农业作业的自动化。
当前主流的 PA 技术——机器人流程自动化(Robotic Process Automation,RPA),通过协调各种动作(比如函数或 API),把重复任务抽象成工作流。虽然 RPA 借助自动工作流执行成功减轻了人力负担,但工作流的协调过程仍需大量人工操作。
LLM 的出现带来了范式转变的趋势,从机器人流程自动化(RPA)转向代理流程自动化(Agentic Process Automation,APA),利用 LLM 构建工作流,实现工作流协调过程的自动化。
然而,这一范式转变趋势受限于 LLM 协调复杂工作流的能力有限,进而导致当前 APA 方法存在两大局限性:
-
• 动作规模受限:目前LLM 仅能协调动作数量有限的小规模工作流。即便是最先进的 OpenAI GPT-4,即便配备了先进的决策机制,能管理的工作流平均也只有 6.1 个动作,远不能满足现实需求的复杂程度。比如,Apple Shortcuts平均涉及 70.4 个动作。
-
• 逻辑结构简单:目前,多数现有工作主要聚焦于生成顺序动作,但现实应用中的工作流通常包含复杂的逻辑结构,比如分支和循环。例如,Apple Shortcuts 平均有 2.6 个嵌套的分支/循环逻辑结构。所以,迫切需要释放 LLM 的工作流协调能力,以加快流程自动化的范式转变。
为应对这些挑战,本文作者提出工作流 LLM(WorkflowLLM):一个以数据为中心的框架,涵盖数据集构建、模型训练和评估。
2. 什么是工作流LLM?
上图展示了工作流(WorkflowLLM)概览,通过一个三阶段管道构建工作流基准,再对工作流 Llama 进行微调,能够依据用户的查询生成工作流。
上图展示了Workflow LLM 以数据为核心的框架,借由构建高质量的监督微调数据集 Workflow Bench 来提升 LLM 在工作流编排上的能力。数据集的构建流程分为三个不同阶段开展:数据收集、查询拓展以及工作流生成。
2.1 数据收集(DATA COLLECTION)
通过抓取和筛选苹果快捷指令和 RoutineHub获得高质量数据,然后将快捷指令转成 Python 风格的工作流代码。受思维链(Chain-of-Thought)启发,让 ChatGPT 生成分层的想法,包括注释、任