【周输入】517周阅读推荐-4-优快云博客

前文

本次推荐

AI Agent 十问十答，降低认知摩擦

Agent，中文翻译为代理，顾名思义，代替用户在代理权限内去处理相关事宜。

AI Agent 是指在普通代理的基础上，具备对任务的理解、环境的感知、信息的获取能力，并通过推理能力，自主进行决策和执行。

AI Agent 就是 LLM + 客户端（Chatbot、AI IDE 等）组成的产品，代替我们去自主的完成下达的任务，这里的客户端具备规划、工具使用，甚至记忆的功能，目的都是为了更准确的执行任务

和传统自动化软件（也可根据任务要求，自动对任务进行拆解，并完成目标）的区别

需要决策：根据代码上下文灵活理解意图、自主定位错误、自主规划修复步骤，如代码场景。传统自动化软件只能按规则跑流程，遇到异常或不确定性时无法自主推理和修正。

需要连续推理与多步计划：自动完成有逻辑连贯性的复杂任务，例如撰写长篇技术报告场景。传统自动化软件最多能模板化填充内容，无法根据目标动态规划章节结构、铺设推理链条、前后自洽。

需要跨系统自主整合数据：在多个ERP、CRM、财务系统之间自动生成综合运营报告。传统 RPA（机器人流程自动化）只能定向拉取数据，无法理解数据之间的隐含关联或异常。

需要处理模糊、不完整输入：用户只给出一句含糊需求（如“帮我优化一下销售流程”），系统理解后完成多步落地执行，传统自动化软件需要结构化清晰指令，无法理解模糊自然语言并自主澄清、细化、规划。

需要自主学习和演化：持续优化任务，进行自我纠错。传统自动化工具需要人为设定优化规则，无法根据实际结果自我改进。

Agent和Chatbot的区别是什么

能力边界是 Chatbot 与 AI Agent 的本质差异。Chatbot 向 AI Agent 演进，是技术驱动和市场需求的必然。

技术驱动要素包括：LLM基模（推理-CoT思考）、Tool Use成熟、记忆和根据反馈调整的自主性、规划推理

需求驱动要素包括：自动化/效率的提升期望；商业化模式（Chatbot难以收费，Agent 拓展出 SaaS、B2B 集成、专属 Agent 市场），行业竞争（基模和垂直领域都在陆续开发）

Agent构成：

模型（Model）：Agent 的“大脑”，是基座、是引擎。

环境反馈（Context）：定义了模型执行任务时，要用到的信息的总和，包括通过 Tool 拿到的信息、用户输入的信息等等。

工具（Tool）：Agent 的“手脚”；

AI Agent 的工作原理可以从感知、认知&推理&决策、行动、反馈和学习。

感知：物理世界/数字世界；

决策：信息识别与分析，作出明智的决策（借助 RAG、联网搜索、外部应用和系统调用），是 AI Agent 行为的核心，直接决定了后续行动的有效性；复杂任务的决策并不是一个结果，而是需要经历和环境感知、认知和推理之间反复交互的过程

行动：

反馈学习：每次任务后，学习和记忆；

如何提升Agent输出效果

41% 的受访者（LangChain 的调研）认为性能质量是构建可靠智能体系统的最大限制。性能质量表现不佳常因模型不够好或传递了错误（或不完整）的上下文，后者更加常见

模型类型和质量：不同厂家，不同类型系列、不同时间版本性能都是差异性的，实际落地会有AI网关管理多模型

工具：

        实现方式是 MCP 和 Function Call，Function Call 是最早提出的，MCP 是在此基础之上做了协议的标准化，

        OpenAI的Operator 的形式（截屏，以视觉方式读取浏览器的页面信息）来和外部页面进行交互，未成主流（客户端实现成本高，视觉算法导致的出错率不可控，服务端没有参与感）

        工具使用的难点：信息对齐（模型调用MCP的调试过程）+协议开销大；前者：MCP Marketplace、多MCP时，MCP Registry 批量管理，AutoMCP，让模型通过反复试验来学习工具的使用方法，而不只是通过提示工程来优化工具的调用效果；

指令：无论是用户提示，还是开发者训练大模型的提示，常见的改善结果策略有：利用现有文档、分解任务、定义明确的行动、考虑边缘情况；

指令也正在内化为大模型的能力，通过对话引导的方式来帮助用户将自己的任务描述的更加清楚

Workflow、Agent、Agentic 的联系和区别：Workflow由人定义的自动化流程编排，确定性高，泛化差，反之LLM定义的流程编排，确定性地，泛化好；Agent名词，某某是否是代理，Agentic是智能程度；LLM定义的流程编排比Workflow Agentic程度更高；

实际落地，Workflow和LLM会混合进行流程编排；LLM 赋能 Workflow：在工作流的各个任务环节中，嵌入大模型能力；Workflow 驱动 LLM 交互：以工作流的流程逻辑来引导大模型的交互过程。比如在智能客服工作流中，当用户咨询问题时，工作流先对问题进行初步分类，然后根据分类结果调用大模型进行针对性回答；

workflow和LLM的选择（图中Agents改为LLM），自由度和可预见性，门槛高不高，上限高不高（任务简单复杂？）

Single - Agent System（单智能体系统）：指在一个系统中仅存在单个智能体，该智能体独立完成任务，其决策和行动仅基于自身的感知、知识与能力，不与其他智能体协作或交互。Multi - Agent System（多智能体系统）：由多个智能体组成，这些智能体相互协作、交互，共同完成复杂任务。各智能体具有自主性，可独立做出决策，但通过信息共享、协作等方式实现共同目标。

多智能体系统，理论上可以为经理模式（中心化）和去中心化模式。经理” 代理负责将任务分配给合适的专业代理，并整合最终结果，提供统一的用户体验，适用于希望由一个代理掌控工作流程并与用户交互的场景。

去中心化模式中，多个代理地位平等，可相互移交任务执行权。当一个代理调用移交函数，新代理立即开始执行并接收最新对话状态。

为什么多智能体重要

技术上需求：复杂度管理，灵活扩展、资源成本优化和并行处理，容错性可靠性

我的思考

Agent虽然有时候，被翻译成智能体，但是代理更为准确；
Agent和传统软件自动化的区别，可以从Agent的操作的生命周期来看差异性
感知：输入泛化
推理决策：反馈动态规划，异常处理，多步迭代推理
行动：跨系统获取数据的基础上，理解数据
反馈学习：自主性，持续纠错进化

Agent交互设计，屏蔽技术，哪些信息呈现给用户，营造用户信任感；
LLM和Workflow：LLM按照传统软件的方式作为一个workflow的节点嵌入；
多智能体中心化vs非中心化，可能会混合，如果完全中心化，中心化的智能体可以面向用户，脱敏用户隐私信息，但是信息转化给被调用Agent可能会存在“传话”信息误差；非中心化方案，接管Agent的交互信息，可能无法share给，具体还是看应用场景，比如，手机的Apple ID登陆/siri待为请求互联网AI服务（屏蔽用户信息），手机的银行APP就是APP接管逻辑；