Agentic AI！为什么Agentic AI工作流程这么强？

最新推荐文章于 2025-12-02 15:55:42 发布

原创最新推荐文章于 2025-12-02 15:55:42 发布 · 1.1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AgenticAI #agent #AI #LLM

Agentic AI简介

Agentic AI指的是通过一系列深思熟虑、迭代的步骤执行任务的AI系统，模仿人类处理复杂问题的方式。与传统的大型语言模型（LLM）使用方式不同，传统方式可能通过单一提示要求完整输出（例如，从头到尾写一篇作文），而Agentic AI工作流程将任务分解为更小、更易管理的步骤。这种迭代过程包括规划、研究、起草、修订，有时还会结合人工反馈，从而产生更高质量的输出。

示例：研究代理

Agentic工作流程的一个实际示例是研究代理。对于一个查询，如“我如何建立一家新的火箭公司来与SpaceX竞争？”，代理可能会：

•规划研究过程。

•执行网络搜索以收集相关数据。

•综合并排序研究结果。

•起草大纲。

•由编辑代理审查连贯性。

•生成包含引言、背景和研究结果等部分的全面Markdown报告。

这种迭代的多步骤过程产生比单一提示更详细、更深思熟虑的输出。此类工作流程在专业任务中尤为有价值，例如法律文件分析、医疗研究或商业产品开发。

自主程度

Agentic AI系统的自主程度各不相同，从高度结构化、确定性的工作流程到更灵活的决策系统不等。术语“agentic”避免了关于什么是“真正代理”的二元争论，通过承认系统可以在不同程度上具有代理性。

低自主代理

在低自主工作流程中，步骤由人类工程师预定义。例如，撰写关于黑洞的作文：

1.用户输入：指定主题（例如，黑洞）。

2.LLM任务：生成网络搜索词。

3.工具使用：调用网络搜索API获取相关页面。

4.LLM任务：根据获取的数据撰写作文。

在这里，步骤序列是固定的，LLM的自主性仅限于在每个步骤中生成文本。

高自主代理

在高自主工作流程中，LLM决定行动序列。对于相同的黑洞作文任务，LLM可能会：

•选择是搜索网络、近期新闻还是学术论文。

•决定获取多少网页或是否将PDF转换为文本。

•反思草稿并决定是否需要进一步研究或修订。

高度自主的代理甚至可以创建新工具或功能，但它们更不可预测且难以控制。半自主代理在两者之间取得平衡，做出部分决策，同时使用预定义工具。

符号约定

•红色：用户输入（例如，查询或文档）。

•灰色：LLM任务（例如，生成文本或做出决策）。

•绿色：工具使用（例如，网络搜索、API调用或代码执行）。

Agentic AI的优点

Agentic工作流程提供以下几个关键优势：

1.性能提升：Agentic工作流程显著提升LLM性能。例如，在Human Eval编码基准测试中：

•GPT-3.5通过直接提示实现40%的准确率。

•GPT-4通过直接提示提升至67%。

•将GPT-3.5包装在Agentic工作流程中（例如，编写代码、反思和修订）可以超越GPT-4的直接提示，表明工作流程设计可能比模型升级更具影响力。

2.并行化：Agentic工作流程可以并发处理任务，而人类通常按顺序工作。例如，同时下载多个网页进行研究比人类逐一阅读更快。

3.模块化：工作流程由可互换的组件（例如，LLM、API、工具）构建。开发者可以替换组件，例如更改网络搜索引擎（从Google到Bing）或为特定步骤使用不同的LLM，以优化性能。

Agentic AI应用

Agentic工作流程被应用于各个领域，其复杂性取决于任务结构和输入要求。

发票处理

•任务：从PDF发票中提取关键字段（开票方、地址、应付金额、到期日期）并更新数据库。

•工作流程：

1.使用API将PDF转换为文本。2.使用LLM验证文档是否为发票并提取字段。3.调用数据库API保存提取的数据。

•为何有效：清晰的分步流程，仅基于文本输入，实施相对简单。

基本客户订单查询

•任务：回复客户关于订单的电子邮件。

•工作流程：

1.使用LLM提取订单详情（例如，客户姓名、订单号）。

2.查询订单数据库以检索相关记录。

3.起草回复并排队等待人工审查。

•为何有效：具有预定义步骤的结构化流程，在企业中广泛应用。

通用客户服务

•任务：处理多样化的客户查询（例如，库存检查、退货）。

•工作流程：

1.分析查询以确定所需行动（例如，检查黑色牛仔裤的库存）。

2.根据需要进行多次数据库API调用。

3.对于退货，验证购买历史和退货政策，然后发出退货单。

•挑战：由于查询多样化，需LLM动态规划步骤，使其更复杂且不可预测。

计算机使用代理

•任务：导航网站以执行任务（例如，检查联合航空的航班可用性）。

•工作流程：

1.使用网络浏览器工具访问和交互网页。

2.推理页面内容以决定行动（例如，填写表单、点击按钮）。

3.如有需要，切换到替代网站（例如，Google Flights）。

•挑战：由于多模态输入（网页视觉、文本）和不可预测的网页交互，复杂性高。当前系统对于关键任务不可靠，但显示出未来发展的潜力。

任务难度

•较简单任务：清晰的分步流程，仅限文本输入（例如，发票处理）。

•较困难任务：动态规划或多模态输入（例如，网页导航、通用客户服务）。

任务分解：识别工作流程步骤

任务分解是将复杂任务分解为更小、可执行步骤的过程。这是构建有效Agentic工作流程的关键技能。

示例：研究代理

•任务：撰写一篇深入研究的作文。

•初始分解：

1.撰写作文大纲（LLM）。

2.生成网络搜索词并获取页面（LLM + 网络搜索API）。

3.根据研究撰写作文（LLM）。

•问题：输出感觉不连贯。

•优化分解：

1.撰写作文大纲（LLM）。

2.生成网络搜索词并获取页面（LLM + 网络搜索API）。

3.撰写初稿（LLM）。

4.审查初稿的连贯性（LLM）。

5.修订初稿（LLM）。

这种迭代优化通过模仿人类写作过程提高输出质量。

示例：客户订单查询

•任务：回复客户关于订单的电子邮件。

•分解：

1.提取关键信息（客户姓名、订单号）（LLM）。

2.查询订单数据库（LLM + 数据库API）。

3.起草回复并排队等待人工审查（LLM + 电子邮件API）。

示例：发票处理

•任务：处理PDF发票。

•分解：

1.将PDF转换为文本（PDF转文本API）。

2.提取关键字段（LLM）。

3.更新数据库记录（LLM + 数据库API）。

构建模块

Agentic工作流程结合：

•AI模型：用于文本生成、决策或提取的LLM；用于图像或音频的多模态模型。

•工具：API（例如，网络搜索、电子邮件、数据库查询）、代码执行或检索增强生成（RAG）。

•关键问题：每个步骤能否由LLM、工具或短代码执行？如果不能，进一步分解为更小的可执行步骤。

评估Agentic AI（评估）

评估对于评估和改进Agentic工作流程至关重要。严谨的评估过程是高效开发者的标志。

流程

1.先构建，后评估：提前预测问题很困难。先构建工作流程，然后检查输出以识别不足。

2.示例问题：客户服务代理提到竞争对手（例如，“我们比ComproCo更好”）。这对许多企业来说是不希望的。

3.评估：

•客观指标：编写代码统计竞争对手提及次数（例如，搜索“ComproCo”、“RivalCo”）。

•主观指标：使用LLM作为评判者分配质量分数（例如，作文质量1-5分，尽管此方法可靠性较低）。

4.错误分析：审查中间输出（跟踪）以发现特定步骤中的问题。

评估类型

•端到端：测量整体输出质量（例如，作文连贯性）。

•组件级：评估单个步骤（例如，提取发票字段的准确性）。

•LLM作为评判者：提示LLM评估主观标准，尽管更可靠的评分技术将在后面介绍。

Agentic设计模式

四个关键设计模式指导Agentic工作流程的构建：

1.反思：

•LLM批判自己的输出或使用外部反馈（例如，代码错误）进行改进。

•示例：LLM编写代码，检查错误并修订，可能超越直接代码生成。

2.工具使用：

•LLM调用功能或API（例如，网络搜索、代码执行、数据库查询）以增强能力。

•示例：搜索网络上的咖啡机评论或执行代码解决数学问题。

3.规划：

•LLM动态确定步骤序列。

•示例：对于生成图像并描述的任务，LLM计划调用姿势检测模型、图像生成模型和文本转语音模型。

4.多代理协作：

•多个LLM，每个具有专门角色（例如，研究员、作者、编辑），共同工作。

•示例：虚拟软件公司（例如，ChatDev），包含程序员、测试员和设计师等代理协作完成软件开发。

结论

Agentic AI工作流程通过将过程分解为迭代的、可管理的步骤，实现复杂任务的执行。其强大之处在于性能提升、并行化和模块化，使其适用于研究、发票处理和客户服务等应用。通过掌握任务分解、评估和反思、工具使用、规划及多代理协作等设计模式，开发者可以构建强大、高性能的AI系统。下一模块将深入探讨反思设计模式，这是一种简单而有效的性能提升技术。