Agent让大模型从“解释问题”到“解决问题”

背景

image.png
大语言模型在解决对话类问题有了很大突破,然而在实际世界我们往往希望大模型能把各种言语“指令”、操作流程变成实际的产出。从解释问题到解决问题。
举一个例子来讲:
我们问大模型该怎么画一幅水彩画,大模型吧啦吧啦输出了一堆画水彩的流程。如果你真按着他的流程去作画有可能可以得到一幅不错的画。但是如果我们希望的是马上得到一幅画,让模型直接帮忙生成一幅画那是不是更有实际价值。
再比如:
试想一下,当你躺在家里的床上准备睡觉的时候,突然发现窗帘没有关上,如果这时候跟大模型说“请帮我关闭我家的窗帘”,其实我们并不想听到大模型回复了一大段的“关闭窗帘的步骤”,如果大模型真的像一个人一样能够完成这件事情,那该有多酷!甚至当你说出一些稍微复杂指令,比如“窗帘不用全部关上,给我留一个缝”,如果大模型也能“理解”并且能自动将“留一个缝”这种自然语言转换为控制“窗帘闭合百分比”这样的一个量化参数并且真正将窗帘关闭到合适位置的时候,那么大模型才真正能在各行各业的落地中带来一波大的浪潮。
我们并不需要一个只知道聊天的机器人“玩具”,我们需要的正是这种“有手有脚”的大模型、能做事情的大模型,这应该才是我们真正的所需要的大模型的理想形态。那么Agent正是我们通往这种理想形态的一个很重要的技术手段,肯定不是唯一的,但至少是当下这个时间点非常重要的一种技术手段。
要实现大模型从解释问题到解决问题的突破,有两条Agent实现路径:
1.SOP+BOM,提前对解决问题流程抽取,根据问题调用相应处理问题流程
2.设定奖励规则,用RL算法让Agent自主探索
这篇文章重点介绍SOP+BOM实现的Agent方案。

Agent的分类

1. Agent有多少种类别

Agent AI被分类为以下几种主要类别:

  • Generalist Agents: 这些是通用的Agent,旨在在各种任务和环境中表现良好。
  • Embodied Agents: 这些是具有物理或虚拟身体的Agent,可以与环境进行物理交互。
  • Simulation and Environments Agents: 这些是用于模拟和环境交互的Agent,可以用于训练和测试其他类型的Agent。
  • Generative Agents: 这些是能够生成新内容(如图像、音频或文本)的Agent。
  • Knowledge and Logical Inference Agents: 这些是能够进行知识推理和逻辑推理的Agent。
  • LLMs and VLMs Agent: 这些是使用大型语言模型(LLMs)和视觉语言模型(VLMs)的Agent,可以进行多模态的理解和生成。

2. Agent分类的条件要求

分类主要基于Agent的功能、应用领域和交互方式。例如:

  • 是否需要执行物理动作
  • 是否需要与环境或用户交互
  • 是否专注于特定领域(如游戏、医疗)
  • 是否涉及知识检索和推理
  • 是否需要生成内容

3. 每一类Agent的特点,优点和不足

Generalist Agent Areas
  • 特点:广泛适用于多种任务和环境。
  • 优点:通用性强,适应性高。
  • 不足:可能在特定任务上不如专用智能体高效。
Embodied Agents
  • 特点:在物理或虚拟环境中执行任务。
  • 优点:能够与环境进行复杂交互,适用于机器人和游戏等领域。
  • 不足:需要复杂的感知和行动系统,开发成本高。
Action Agents
  • 特点:执行物理动作。
  • 优点:适用于机器人和游戏中的物理交互任务。
  • 不足:需要高精度的动作控制和环境感知。
Interactive Agents
  • 特点:与用户或其他智能体互动。
  • 优点:增强用户体验,适用于客服和教育等领域。
  • 不足:需要复杂的自然语言处理和情感识别能力。
Simulation and Environments Agents
  • 特点:在模拟环境中操作。
  • 优点:适用于训练和测试,成本低。
  • 不足:可能与真实环境存在差距,影响实际应用效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值