【周输入】517周阅读推荐-4

前文

【周输入】510周阅读推荐-1-优快云博客

【周输入】510周阅读推荐-2-优快云博客

【周输入】510周阅读推荐-3-优快云博客

【周输入】517周阅读推荐-1-优快云博客

【周输入】517周阅读推荐-2-优快云博客

【周输入】517周阅读推荐-3-优快云博客

本次推荐

AI Agent 十问十答,降低认知摩擦

Agent,中文翻译为代理,顾名思义,代替用户在代理权限内去处理相关事宜。

AI Agent 是指在普通代理的基础上,具备对任务的理解、环境的感知、信息的获取能力,并通过推理能力,自主进行决策和执行。

AI Agent 就是 LLM + 客户端(Chatbot、AI IDE 等)组成的产品,代替我们去自主的完成下达的任务,这里的客户端具备规划、工具使用,甚至记忆的功能,目的都是为了更准确的执行任务

和传统自动化软件(也可根据任务要求,自动对任务进行拆解,并完成目标)的区别

  • 需要决策:根据代码上下文灵活理解意图、自主定位错误、自主规划修复步骤,如代码场景。传统自动化软件只能按规则跑流程,遇到异常或不确定性时无法自主推理和修正。

  • 需要连续推理与多步计划:自动完成有逻辑连贯性的复杂任务,例如撰写长篇技术报告场景。传统自动化软件最多能模板化填充内容,无法根据目标动态规划章节结构、铺设推理链条、前后自洽。

  • 需要跨系统自主整合数据:在多个ERP、CRM、财务系统之间自动生成综合运营报告。传统 RPA(机器人流程自动化)只能定向拉取数据,无法理解数据之间的隐含关联或异常。

  • 需要处理模糊、不完整输入:用户只给出一句含糊需求(如“帮我优化一下销售流程”),系统理解后完成多步落地执行,传统自动化软件需要结构化清晰指令,无法理解模糊自然语言并自主澄清、细化、规划。

  • 需要自主学习和演化:持续优化任务,进行自我纠错。传统自动化工具需要人为设定优化规则,无法根据实际结果自我改进。

Agent和Chatbot的区别是什么

能力边界是 Chatbot 与 AI Agent 的本质差异。Chatbot 向 AI Agent 演进,是技术驱动和市场需求的必然。

技术驱动要素包括:LLM基模(推理-CoT思考)、Tool Use成熟、记忆和根据反馈调整的自主性、规划推理

需求驱动要素包括:自动化/效率的提升期望;商业化模式(Chatbot难以收费,Agent 拓展出 SaaS、B2B 集成、专属 Agent 市场),行业竞争(基模和垂直领域都在陆续开发)

Agent构成:

  • 模型(Model):Agent 的“大脑”,是基座、是引擎。

  • 环境反馈(Context):定义了模型执行任务时,要用到的信息的总和,包括通过 Tool 拿到的信息、用户输入的信息等等。

  • 工具(Tool):Agent 的“手脚”;

AI Agent 的工作原理可以从感知、认知&推理&决策、行动、反馈和学习。

感知:物理世界/数字世界;

决策:信息识别与分析,作出明智的决策(借助 RAG、联网搜索、外部应用和系统调用),是 AI Agent 行为的核心,直接决定了后续行动的有效性;复杂任务的决策并不是一个结果,而是需要经历和环境感知、认知和推理之间反复交互的过程

行动:

反馈学习:每次任务后,学习和记忆;

如何提升Agent输出效果

41% 的受访者(LangChain 的调研)认为性能质量是构建可靠智能体系统的最大限制。性能质量表现不佳常因模型不够好或传递了错误(或不完整)的上下文,后者更加常见

模型类型和质量:不同厂家,不同类型系列、不同时间版本性能都是差异性的,实际落地会有AI网关管理多模型

工具:

        实现方式是 MCP 和 Function Call,Function Call 是最早提出的,MCP 是在此基础之上做了协议的标准化,

        OpenAI的Operator 的形式 (截屏,以视觉方式读取浏览器的页面信息)来和外部页面进行交互,未成主流(客户端实现成本高,视觉算法导致的出错率不可控,服务端没有参与感)

        工具使用的难点:信息对齐(模型调用MCP的调试过程)+协议开销大;前者:MCP Marketplace、多MCP时,MCP Registry 批量管理,AutoMCP,让模型通过反复试验来学习工具的使用方法,而不只是通过提示工程来优化工具的调用效果;

指令:无论是用户提示,还是开发者训练大模型的提示,常见的改善结果策略有:利用现有文档、分解任务、定义明确的行动、考虑边缘情况;

指令也正在内化为大模型的能力,通过对话引导的方式来帮助用户将自己的任务描述的更加清楚

Workflow、Agent、Agentic 的联系和区别:Workflow由人定义的自动化流程编排,确定性高,泛化差,反之LLM定义的流程编排,确定性地,泛化好;Agent名词,某某是否是代理,Agentic是智能程度;LLM定义的流程编排比Workflow Agentic程度更高;

实际落地,Workflow和LLM会混合进行流程编排;LLM 赋能 Workflow:在工作流的各个任务环节中,嵌入大模型能力;Workflow 驱动 LLM 交互:以工作流的流程逻辑来引导大模型的交互过程。比如在智能客服工作流中,当用户咨询问题时,工作流先对问题进行初步分类,然后根据分类结果调用大模型进行针对性回答;

workflow和LLM的选择(图中Agents改为LLM),自由度和可预见性,门槛高不高,上限高不高(任务简单复杂?)

Single - Agent System(单智能体系统):指在一个系统中仅存在单个智能体,该智能体独立完成任务,其决策和行动仅基于自身的感知、知识与能力,不与其他智能体协作或交互。Multi - Agent System(多智能体系统):由多个智能体组成,这些智能体相互协作、交互,共同完成复杂任务。各智能体具有自主性,可独立做出决策,但通过信息共享、协作等方式实现共同目标

多智能体系统,理论上可以为经理模式(中心化)和去中心化模式。经理” 代理负责将任务分配给合适的专业代理,并整合最终结果,提供统一的用户体验,适用于希望由一个代理掌控工作流程并与用户交互的场景。

去中心化模式中,多个代理地位平等,可相互移交任务执行权。当一个代理调用移交函数,新代理立即开始执行并接收最新对话状态。

为什么多智能体重要

技术上需求:复杂度管理,灵活扩展、资源成本优化和并行处理,容错性可靠性

我的思考

  1. Agent虽然有时候,被翻译成智能体,但是代理更为准确;
  2. Agent和传统软件自动化的区别,可以从Agent的操作的生命周期来看差异性
    1. 感知:输入泛化
    2. 推理决策:反馈动态规划,异常处理,多步迭代推理
    3. 行动:跨系统获取数据的基础上,理解数据
    4. 反馈学习:自主性,持续纠错进化
  3. Agent交互设计,屏蔽技术,哪些信息呈现给用户,营造用户信任感;
  4. LLM和Workflow:LLM按照传统软件的方式作为一个workflow的节点嵌入;
  5. 多智能体中心化vs非中心化,可能会混合,如果完全中心化,中心化的智能体可以面向用户,脱敏用户隐私信息,但是信息转化给被调用Agent可能会存在“传话”信息误差;非中心化方案,接管Agent的交互信息,可能无法share给,具体还是看应用场景,比如,手机的Apple ID登陆/siri待为请求互联网AI服务(屏蔽用户信息),手机的银行APP就是APP接管逻辑;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值