Agent相关工作调研

本文探讨了如何通过API增强大模型,如LLM,使其通过调用全球工具存储库来帮助用户规划需求,涉及API调用的工作流程、评估工具使用能力的三个方面,并介绍了MRKL和Stanford小镇项目的相关技术。

API Bank

要解决两个问题:
1)目前的LLM在使用工具方面的效果如何?
2) LLM使用工具还存在哪些障碍?

理想的效果::通过访问全球工具存储库,LLM可以通过概述实现需求所需的所有步骤来帮助人们规划需求。随后,它将检索工具池中所需的工具,并通过可能的多轮 API 调用来满足人类的需求,从而变得真正有用​​且无所不知。

一般有两种方法来增强大模型:1)微调 2)上下文学习(这篇文章关注这个)

在这里插入图片描述

Tools调用API的工作流程:

  1. 判断是否需要API调用。
  2. 确定要调用的正确 API:如果不够好,LLM需要迭代修改 API 输入(例如,确定搜索引擎 API 的搜索关键字)。
  3. 基于API结果的响应:如果结果不满意,模型可以选择细化并再次调用。

从三个层面评估代理的工具使用能力:

  1. 评估调用API的能力。给定 API 的描述,模型需要确定是否调用给定的 API、正确调用它并正确响应 API 返回。
  2. 检查检索 API 的能力。模型需要搜索可能解决用户需求的API,并通过阅读文档来学习如何使用它们。
  3. 评估除了检索和调用之外规划 API 的能力。考虑到不明确的用户请求(例如安排小组会议、预订旅行的航班/酒店/餐厅),该模型可能必须进行多个 API 调用来解决它。

调用流程

在这里插入图片描述
API 调用: 在每个用户语句之后,模型需要确定是否需要 API 调用来访问外部服务,这需要能够了解其知识的边界或是否需要外部操作。这个判断会导致两种不同的选择:定期回复或者启动API调用流程。在定期回复期间,模型可以与人聊天或尝试弄清楚用户的需求并规划完成它们的过程。如果模型已经了解用户的需求并决定启动API调用过程,它将继续后续步骤。

找到合适的API: 为了解决模型的输入限制,模型一开始只给出了API搜索引擎的指令,没有任何具体的API介绍。每次特定 API 调用之前都需要进行 API 搜索。当执行API搜索时,模型应该将用户的需求总结为几个关键词。 API搜索引擎将查找API池,找到最佳匹配并返回相关文档以帮助模型了解如何使用它。检索到的API可能不是模型需要的,因此模型必须决定是修改关键字并重新搜索,还是放弃API调用并回复。

API调用后回复:完成API调用并获得返回结果后,模型需要根据结果采取行动。如果返回的结果符合预期,模型可以根据结果回复用户。如果API调用出现异常或者模型对结果不满意,模型可以根据返回的信息选择细化并再次调用,或者放弃API调用并回复。

系统设计

在这里插入图片描述
评估系统主要包含53个API、支撑数据库和ToolManager。完整的API列表附在附录A中。构建的系统包含了生活和工作中最常见的需求。其他类型的人工智能模型也以 API 的形式抽象出来,供法学硕士使用,这将扩展模型特定方面的功能。此外,还包括一些操作系统接口,以允许模型控制外部应用程序。

AI model

AI模型正如我们之前所说,系统中还涉及其他AI模型,例如ImageCaption、SpeechRecognition、Translate和DocumentQA。将它们视为API接口,LLM不需要了解它们的模型细节或端到端联合训练。他们只需要知道它们的目的和输入/输出格式,然后就可以使用这些人工智能模型来增强特定方面的能力。

API

我们构建了大约53个API,例如搜索引擎、日历查询、智能家居控制、酒店预订等。每个API包含三类API描述信息:功能描述、输入参数和输出参数。对于数据库相关的API,它们有一个参数可以用来指定要使用的数据库。
在这里插入图片描述

  • 三级API调用Prompt:

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 输出例子:

在这里插入图片描述

  • https://ar5iv.labs.arxiv.org/html/2304.08244_immersive_translate_auto_translate=1

MRKL

在这里插入图片描述
MRKL 系统由一组可扩展的模块(我们称之为“专家”)和一个路由器组成,该路由器将每个传入的自然语言输入路由到能够最好地响应输入的模块(该模块的输出可以是MRKL 系统,或路由到另一个模块)。这些模块可以是:

  • 神经网络,包括通用的大型语言模型以及其他较小的专用语言模型。
  • 符号,例如数学计算器、货币转换器或对数据库的API 调用

MRKL的优势:

  1. 安全回退:如果输入与任何现有专家模块不匹配,路由器会将输入直接发送到通用大型LLM。
  2. 强大的可扩展性:由于每位专家都经过独立培训,因此我们能够以低廉的成本添加新功能,同时保证它们不会损害现有功能的性能。唯一需要重新训练的组件是路由器,这是一项相对轻量级的任务。
  3. 可解释性:当路由器调用特定模块时,通常具有为 MRKL 系统输出提供基本原理的附带好处(1+1=2,因为计算器是这么说的”);现有语言模型严重缺乏此类解释。
  4. 最新信息:外部API的集成允许MRKL系统挂钩动态知识库,并正确回答静态模型无法回答的输入。
  5. 专有知识:访问专有数据库和其他信息源。
  6. 组合性:通过将复合多跳输入路由到不同的专家,我们能够自然地集成他们的响应并正确地处理复杂的输入。
  • https://ar5iv.labs.arxiv.org/html/2205.00445_immersive_translate_auto_translate=1

斯坦福小镇

  • 大名鼎鼎的斯坦福小镇项目:https://arxiv.org/abs/2304.03442
    在这里插入图片描述
    生成Agent的设计将 LLM 与记忆、规划和反射机制相结合,使代理能够根据过去的经验进行行为,并与其他代理进行交互。

  • 记忆流(Memory stream):是一个长期记忆模块(外部数据库),记录了代理在自然语言中的经验的完整列表。

    • 每个元素都是一个观察结果,一个由代理直接提供的事件。 - 代理间通信可以触发新的自然语言语句。
  • 检索模型:根据相关性、新近度和重要性,呈现上下文以告知代理的行为。

    • 新近度Recency:最近发生的事件得分较高

    • 重要性Importance:区分平凡记忆和核心记忆。直接问LLM。

    • 相关性Relevance:基于它与当前情况/查询的相关程度。

  • 反射机制Reflection mechanism:随着时间的推移将记忆合成更高层次的推论,并指导智能体未来的行为。它们是对过去事件的更高层次的总结(<-注意,这与上面的自我反思有点不同)

    • 提示 LLM 提供 100 个最新观察结果,并根据一组观察结果/陈述生成 3 个最显着的高级问题。然后请LM回答这些问题。
  • 规划和反应:将反思和环境信息转化为行动

    • 规划本质上是为了优化当前与时间的可信度
  • 提示模板: {Intro of an agent X}. Here is X’s plan today in broad strokes: 1)
    Relationships between agents and observations of one agent by another are all taken into consideration for planning and reacting.

  • 规划和反应时都会考虑主体之间的关系以及一个主体对另一个主体的观察。

  • 环境信息以树形结构呈现。

<think>好的,我现在需要帮助用户了解用户访谈助手Agent工作流的实现方法或示例。用户之前讨论过Dify平台的应用,现在结合提供的引用,可能需要整合这些信息。 首先,回顾之前的对话,用户询问了Dify在IT领域的应用,现在转向用户访谈助手Agent工作流。引用中提到了A/B测试、敏捷开发、用户画像、HTTP响应处理,这些都可能相关。比如,用户画像(引用3)可以用来构建访谈助手的数据模型,敏捷开发(引用2)可能影响工作流设计,而A/B测试(引用1)可能用于优化Agent的决策流程。 用户需要具体的实现方法示例。可能需要分步骤说明:从需求分析到数据收集,再到工作流设计集成。同时,结合Dify的功能,如低代码环境模型集成,可能提到如何利用这些来简化开发。 要注意引用中的技术点,比如用户画像的数据处理步骤(引用3中的收集、清洗、建模),如何在访谈助手中应用。工作流设计可能需要参考敏捷开发(引用2)的灵活性,以及如何结合ComfyUI(引用2提到的工具)。此外,HTTP响应处理(引用4)可能涉及如何展示访谈结果或数据。 需要确保回答结构清晰,分点说明实现步骤示例,并自然融入相关引用。同时,生成的相关问题应引导用户深入探讨优化、集成或评估方法。</think>以下是关于用户访谈助手Agent工作流的实现方法与示例分析,结合Dify平台特性及相关技术参考: --- ### 一、用户访谈助手的核心功能与实现方法 用户访谈助手是一种基于AI Agent的自动化工具,用于优化用户调研流程,典型功能包括**问题生成、对话管理、数据分析**。 **实现步骤参考:** 1. **需求定义与数据建模** - 基于用户画像(引用[3])提取目标用户特征(如行业、行为偏好),构建访谈问题库。 - 使用Dify的**知识库集成功能**,将企业历史访谈数据、FAQ文档等作为训练素材。 2. **对话逻辑设计** - **动态问题生成**:根据用户实时回答调整后续问题(如情绪分析触发追问)。 - **多模态交互**:支持文本、语音输入(引用[4]的HTTP响应处理可扩展至音频接口)。 3. **集成与测试** - 通过Dify的**低代码API模板**连接CRM或数据分析平台(引用[1]的A/B测试逻辑可用于验证问题有效性)。 - 示例代码片段(模拟对话逻辑): ```python def generate_followup(answer_sentiment): if answer_sentiment == "positive": return "您提到的体验具体好在哪些方面?" else: return "能否详细描述您遇到的困难?" ``` --- ### 二、Agent工作流的设计与示例 Agent工作流指多个AI Agent协作完成复杂任务的自动化流程,典型应用于**用户访谈数据解析-分类-报告生成**场景。 **示例:企业用户调研工作流** 1. **数据采集Agent** - 通过Dify对接访谈助手,实时捕获用户原始回答(结构化与非结构化数据)。 2. **清洗分析Agent** - 应用引用[3]的**数据清洗与特征提取**方法,过滤无效回答并提取关键词。 - 使用NLP模型(如BERT)进行情感分析主题聚类。 3. **报告生成Agent** - 基于分析结果自动生成可视化图表(引用[4]的图片响应处理可适配图表渲染)。 - 输出格式示例: ```markdown ## 月度用户反馈报告 - **高频需求**:功能优化(占比38%) - **负面情绪分布**:支付流程(72%负面评价) ``` 4. **敏捷迭代机制** - 结合引用[2]的**敏捷开发方法**,通过ComfyUI等工具快速调整工作流节点。 --- ### 三、技术实现关键点 1. **工具选型** - 使用Dify的**预置模型库**快速部署基础Agent,通过自定义插件扩展功能。 2. **性能优化** - 采用引用[1]的A/B测试框架对比不同工作流版本的数据处理效率。 3. **安全与合规** - 访谈数据需匿名化处理,符合GDPR等规范(引用[3]的数据清洗阶段可集成脱敏算法)。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值