背景
大语言模型在解决对话类问题有了很大突破,然而在实际世界我们往往希望大模型能把各种言语“指令”、操作流程变成实际的产出。从解释问题到解决问题。
举一个例子来讲:
我们问大模型该怎么画一幅水彩画,大模型吧啦吧啦输出了一堆画水彩的流程。如果你真按着他的流程去作画有可能可以得到一幅不错的画。但是如果我们希望的是马上得到一幅画,让模型直接帮忙生成一幅画那是不是更有实际价值。
再比如:
试想一下,当你躺在家里的床上准备睡觉的时候,突然发现窗帘没有关上,如果这时候跟大模型说“请帮我关闭我家的窗帘”,其实我们并不想听到大模型回复了一大段的“关闭窗帘的步骤”,如果大模型真的像一个人一样能够完成这件事情,那该有多酷!甚至当你说出一些稍微复杂指令,比如“窗帘不用全部关上,给我留一个缝”,如果大模型也能“理解”并且能自动将“留一个缝”这种自然语言转换为控制“窗帘闭合百分比”这样的一个量化参数并且真正将窗帘关闭到合适位置的时候,那么大模型才真正能在各行各业的落地中带来一波大的浪潮。
我们并不需要一个只知道聊天的机器人“玩具”,我们需要的正是这种“有手有脚”的大模型、能做事情的大模型,这应该才是我们真正的所需要的大模型的理想形态。那么Agent正是我们通往这种理想形态的一个很重要的技术手段,肯定不是唯一的,但至少是当下这个时间点非常重要的一种技术手段。
要实现大模型从解释问题到解决问题的突破,有两条Agent实现路径:
1.SOP+BOM,提前对解决问题流程抽取,根据问题调用相应处理问题流程
2.设定奖励规则,用RL算法让Agent自主探索
这篇文章重点介绍SOP+BOM实现的Agent方案。
Agent的分类
1. Agent有多少种类别
Agent AI被分类为以下几种主要类别:
- Generalist Agents: 这些是通用的Agent,旨在在各种任务和环境中表现良好。
- Embodied Agents: 这些是具有物理或虚拟身体的Agent,可以与环境进行物理交互。
- Simulation and Environments Agents: 这些是用于模拟和环境交互的Agent,可以用于训练和测试其他类型的Agent。
- Generative Agents: 这些是能够生成新内容(如图像、音频或文本)的Agent。
- Knowledge and Logical Inference Agents: 这些是能够进行知识推理和逻辑推理的Agent。
- LLMs and VLMs Agent: 这些是使用大型语言模型(LLMs)和视觉语言模型(VLMs)的Agent,可以进行多模态的理解和生成。
2. Agent分类的条件要求
分类主要基于Agent的功能、应用领域和交互方式。例如:
- 是否需要执行物理动作
- 是否需要与环境或用户交互
- 是否专注于特定领域(如游戏、医疗)
- 是否涉及知识检索和推理
- 是否需要生成内容
3. 每一类Agent的特点,优点和不足
Generalist Agent Areas
- 特点:广泛适用于多种任务和环境。
- 优点:通用性强,适应性高。
- 不足:可能在特定任务上不如专用智能体高效。
Embodied Agents
- 特点:在物理或虚拟环境中执行任务。
- 优点:能够与环境进行复杂交互,适用于机器人和游戏等领域。
- 不足:需要复杂的感知和行动系统,开发成本高。
Action Agents
- 特点:执行物理动作。
- 优点:适用于机器人和游戏中的物理交互任务。
- 不足:需要高精度的动作控制和环境感知。
Interactive Agents
- 特点:与用户或其他智能体互动。
- 优点:增强用户体验,适用于客服和教育等领域。
- 不足:需要复杂的自然语言处理和情感识别能力。
Simulation and Environments Agents
- 特点:在模拟环境中操作。
- 优点:适用于训练和测试,成本低。
- 不足:可能与真实环境存在差距,影响实际应用效果。