如何构建一个真正意义上的“自主代理”(Agent),而不是一个“带LLM的高级工作流”? 让钢铁侠中的“贾维斯”(J.A.R.V.I.S.)真正来到现实,不仅能对话,还能调动资源、控制机械、在复杂战局中自主执行多步任务。

几十年间,这似乎只是遥远的幻想。直到2022年,大语言模型(LLM)的爆发,让我们第一次感觉“贾维斯”近在咫尺。
最近,来自西班牙加泰罗尼亚理工大学和德国慕尼黑工业大学的研究者们发布了一篇论文《构建自主LLM代理的基础》(Fundamentals of Building Autonomous LLM Agents),就系统论述了一个专为解决这个工程困境而设计的“代理认知架构”。

如果你还不清楚“自主代理”和“RAG+Tools”到底有什么本质区别,以及构建自主LLM代理的基础,那么这篇论文则值得你好好看一看。https://arxiv.org/abs/2510.09244v1
一、工作流 vs 代理:“机械执行”与“自主心智”
在深入探讨技术蓝图之前,论文首先厘清了一个至关重要、却常常被混淆的概念:“工作流”(Workflows)与“代理”(Agents)的本质区别。
很多人认为,给LLM接上几个API或工具,让它按顺序执行1-2-3-4步,就是“代理”了。
研究者尖锐地指出:不,那不是代理,那顶多算是一个“工作流”。
- 工作流 (Workflows):是僵化的、预先设定好的自动化脚本。LLM只是这个脚本中的一个环节,被动地执行设计者规划好的固定步骤。它们在可预测的环境中表现良好,但一旦遇到任何意外(比如一个预料之外的弹窗),整个流程就会崩溃,因为它缺乏动态调整和重新规划的能力。
- 代理 (Agents):是多功能的、自主的智能体。代理不依赖固定的计划。相反,它们根据环境的实时反馈自主生成策略。它们使用CoT(思维链)等技术来分解复杂问题,能处理预料之外的挑战,从错误中恢复,并在不可预测的环境中良好运作。
一句话总结:工作流是在“执行指令”**,**而代理是在“自主决策”。这篇论文的目标,正是要构建后者。
二、智能的四大支柱:构建代理的认知架构
那么,如何将一个“罐中之脑”转变为一个自主的“代理”?研究者提出了一个模仿人类认知过程的四大核心系统架构。这四大支柱共同构成了代理的“心智与身体”:

- 感知系统 (Perception System)
- 人类类比:眼睛和耳朵。
- 功能:负责捕捉和处理来自环境的各种信息(如图像、声音、文本),并将其转换为LLM能理解的“有意义的表征”。
- 推理系统 (Reasoning System)
- 人类类比:大脑(特别是前额叶皮层)。
- 功能:这是代理的“大脑中枢”。它接收感知信息和任务指令,制定计划,将复杂问题分解为步骤,根据环境反馈调整计划,并评估自身行为以纠正错误。
- 记忆系统 (Memory System)
- 人类类比:海马体(短期记忆)和新皮层(长期记忆)。
- 功能:负责存储和检索知识。这包括短期记忆(如当前的上下文)和长期记忆(如过去的经验、相关文件、用户偏好等)。
- 执行系统 (Execution System)
- 人类类比:手和脚。
- 功能:这是代理的“手臂”。它负责将“大脑”(推理系统)的抽象决策,转化为对环境产生影响的具体行动。这可以是通过调用API,也可以是生成代码,甚至是控制鼠标和键盘。
这四大系统通过一个持续的闭环协同工作:感知世界 -> 思考规划 -> 调取记忆 -> 执行行动 -> 感知新状态 -> 再次思考… 这就是自主智能的“心跳”。
接下来的内容,我们将深入论文的精华,逐一拆解这四大系统的实现细节、前沿技术和关键挑战。
三、深入蓝图之一:感知系统
代理如何“看见”并“理解”复杂世界
挑战:LLM的“母语”是文本。但现实世界(尤其是电脑GUI界面)是视觉的、动态的、充满噪音的。如何让一个“盲人”在图形界面上导航?
研究者详细阐述了从简单到复杂的四种感知策略:

- 纯文本感知 (Text-Based):最简单的方式。环境被直接描述为文本。这只适用于聊天或文本模拟,计算开销低,但功能极其有限。
- 多模态感知 (Multimodal):这是当前的主流。使用多模态大模型(MM-LLMs),它们能同时处理文本和图像。研究者揭示了MM-LLM的标准流水线:
模态编码器(如ViT)将图像转为特征 ->输入投影器将视觉特征“翻译”对齐到LLM的文本空间 ->LLM主干进行核心推理。 - 结构化数据感知 (Structured Data):这是一种“非视觉”的“看见”方式。例如,代理可以直接读取网页的HTML源码 或操作系统的“可访问性树”(Accessibility Tree)。这能提供肉眼不可见的、100%精确的语义信息(例如,这个元素是“按钮”还是“链接”,它的ID是什么)。
- 工具增强感知 (Tool-based):代理可以通过调用外部工具来“感知”世界。例如,调用谷歌搜索API来感知“实时新闻”,或调用天气API来感知“当前温度”。
关键洞见:解决“GUI接地”的双重感知
论文的精彩之处在于它如何解决代理在GUI操作中的最大痛点:“GUI接地”(GUI Grounding)即模型无法将“截图中看到的按钮”与“点击的精确坐标”完美对应起来。
论文给出的解决方案是一种“组合拳”,即 “视觉+结构”的双重感知。

- 视觉感知 (SoM):代理首先对屏幕截图,然后使用一种叫 “标记集”(Set-of-Mark, SoM) 的技术。它会用一个视觉编码器在屏幕上所有可交互的元素(按钮、复选框)上画出边界框,并存储每个框的坐标。这解决了“在哪里”的问题。
- 结构感知 (Ally Tree):在同一时间,代理会去抓取该应用的 “可访问性树” (Ally Tree)。这棵树提供了“那是什么”的语义信息(例如,
role="button",label="Reply",state="unread")。
当这两种信息结合起来,代理就获得了对界面的完美理解:它既能像人一样“看”到按钮的视觉布局,又能像程序一样“读”到按钮的准确功能和状态。
一个生动的实例:代理如何“阅读”你的邮箱

研究者给出了一个完美的示例来说明这一点。想象一个代理的任务是自动管理网页版电子邮件。
- 视觉捕捉:代理首先截取一张电子邮件应用的屏幕截图。
- 视觉标记 (SoM):它立即启动一个视觉编码器,对截图执行Set-of-Mark操作。这个编码器会在屏幕上每一个可交互的元素(如“回复”按钮、“删除”按钮、每封邮件的复选框)上画一个边界框,并存储所有这些框的精确坐标。
- 结构抓取 (Ally Tree):在同一时刻,代理通过浏览器自动化工具,检索该页面的“可访问性树”(Ally Tree)。
- 数据融合:现在,代理拥有了两份至关重要的数据:
- 一份是视觉数据:一张带标记框的截图,以及一份包含所有元素坐标的结构化列表。
- 一份是语义数据:一个层次化的Ally树,它清晰地描述了每个组件的角色(
button)、标签("Reply")和状态("unread")。
- 形成感知:这两份数据结合起来,就构建了一个强大、可操作的GUI环境模型。当推理系统下达“点击‘回复’按钮”的指令时,代理可以轻松地:(1) 通过Ally树定位到
role="button"且label="Reply"的元素;(2) 通过SoM数据查询到该元素对应的精确坐标;(3) 最后,执行系统生成点击该坐标的动作。
挑战:尽管如此,感知系统仍面临幻觉(“看”到不存在的物体) 和延迟(复杂的视觉处理太慢) 的巨大挑战。
四、深入蓝图之二:推理系统
代理如何“思考”、“计划”与“复盘”
这是四大系统中的“大脑中枢”,也是论文中最核心、最复杂的部分。如果代理要实现自主,它就必须具备强大的规划、反思和纠错能力。

1. 任务分解:如何吃掉一头大象?
面对“预订一张从柏林到慕尼黑的下周二的火车票”这样的复杂任务,代理不能一步到位。它必须先学会“任务分解”。研究者介绍了两大流派:
-
“先分解,后规划” (Decomposition first):这种方法先把大任务彻底分解为所有子任务。其中一个杰出代表是 DPPM (Decompose, Plan in Parallel, and Merge)。它的天才之处在于,在分解任务后,它会并行地(在单独的LLM调用中)为每一个子任务生成子计划。

- 优势:这种并行规划避免了“滚雪球式”的错误。在传统的“串行”规划中,如果第一步(“搜索航班”)的计划出了错,会直接导致第二步(“比较价格”)的计划完全跑偏。DPPM则规避了这一点。
- “交错式分解” (Interleaved decomposition):这是另一种更动态的策略,以著名的 ReAct (Reasoning + Acting) 为代表。它不提前规划所有步骤,而是“走一步看一步”。代理会:
思考->行动->观察结果->再次思考->下一步行动…
- 优势:这种方式容错性更强,能根据环境的实时反馈(例如“搜索结果为空”)动态调整下一步的计划。
2. 多计划生成:“头脑风暴”式的决策
一个聪明的代理不应“一条路走到黑”。它必须能探索多种可能性,然后选择最优解。研究者详细介绍了从简单到复杂的“思维”技术:

- 思维链 (Chain-of-Thought, CoT):这是基准。通过引导LLM“一步一步想”,生成一个线性的推理路径。
- 自洽思维链 (CoT-SC):CoT的升级版。让模型独立生成多条(例如5条)不同的思维链,然后通过“少数服从多数”(majority vote)来选出最可靠的答案。
- 思维树 (Tree-of-Thoughts, ToT):这是一个质的飞跃。ToT不再是线性思考,而是将思考过程构建为一棵 “树”。在树的每个节点(一个中间“想法”),代理会探索多个可能的“下一步分支”,并自我评估(用LLM打分)哪个分支最有希望,然后只沿着最有希望的分支继续深入。
- 思维图 (Graph-of-Thoughts, GoT):比ToT更强大。它允许思考路径合并和循环,形成一个图结构,逻辑上更灵活。
3. 反思:代理“自我纠错”的灵魂
这可能是实现真正自主智能的最关键机制。一个只会执行计划的代理是“机械”的,一个懂得“复盘”和“反思”的代理才是有“灵性”的。
研究者深入探讨了两种“反思”:
- 事后反思 (Post-execution Reflection):
- 这是代理在行动之后的“复盘”能力。代理会批判性地评估自己过去的行为和结果。
- 如何实现? 研究者提出了一个由三部分组成的框架:一个 “演员”(Actor)LLM负责生成行动;一个 “评估者”(Evaluator)LLM负责给结果打分(例如成功/失败);最后,一个 “自我反思模型”(Self-Reflection Model)LLM会接收“失败”的信号和行动轨迹,然后生成语言形式的反馈(例如,“你之所以失败,是因为在第3步错误地使用了
click_button工具,你应该先检查按钮是否存在”)。这些“反思”会被存入记忆,用于指导下一次尝试。
- 事前反思 (Anticipatory Reflection)(点睛之笔!):
-
如果说“事后反思”是“亡羊补牢”,那么“事前反思”就是“未雨绸缪”。
-
研究者介绍了一个名为 “魔鬼代言人”(DEVIL’S ADVOCATE) 的惊艳概念。

-
在执行一个行动之前,代理会主动地、前瞻性地反思这个计划可能在哪些地方失败,并考虑替代的补救措施。
-
例如,在点击“提交”按钮前,代理会“自我拷问”:“万一这个按钮是灰色的怎么办?我的B计划是先去填写旁边的必填项。”
-
这种“预期性反思”极大地增强了代理的鲁棒性和适应性。感兴趣您可以看下它的原论文https://arxiv.org/abs/2405.16334
4. 高级架构:“专家团队”式的多代理系统
最后,研究者提出了一个极具扩展性的高级架构:与其让一个“全才”代理包办所有事,不如组建一个 “专家团队”(Multi-Agent System),让多个专门的代理协同工作。

这个“认知团队”可以包括:
- 规划专家 (Planning Expert):担任“项目经理”,负责战略思考和任务分解。
- 行动专家 (Action Expert):担任“工程师”,负责将计划翻译成具体的API调用或鼠标点击。
- 反射专家 (Reflection Expert):担任“品控员”,评估计划和结果的质量。
- 错误处理专家 (Error Handling Expert):担任“消防员”,在出错时介入,诊断问题并提出解决方案(例如“找不到元素?你也许该向下滚动页面”)。
- 内存管理专家 (Memory Management Expert):担任“图书管理员”,高效地存取过去的成功/失败经验。
- 约束满足专家 (Constraint Satisfaction Expert):担任“法务/合规官”,确保所有步骤都遵守预设的规则(例如“预算不得超过100美元”)。
这种“各司其职”的模块化设计,极大地提升了系统的能力、鲁棒性和可维护性。
四、深入蓝图之三:记忆系统
从“七秒金鱼”到“博闻强识”
挑战:LLM的核心局限之一是其有限的“上下文窗口”。这导致它们只有“短期记忆”(或称“工作记忆”)。一旦对话过长,早期的信息就会被遗忘。
一个自主代理必须拥有长期记忆,才能从过去的经验中学习,并保持行为的一致性。
研究者详细介绍了长期记忆的实现技术:
- RAG (检索增强生成):这是目前最实用的长期记忆技术。它的原理是:当代理需要信息时,它首先用一个“检索器”去外部知识库(通常是向量数据库)中查找最相关的“记忆片段”(例如,公司内部文档、历史对话),然后将这些片段“注入”到LLM的提示词中,LLM就能基于这些“记忆”来生成更准确、更个性化的回答。
- SQL数据库:用于存储结构化的知识。例如,员工名单、订单历史等。代理通过“文本到SQL”(Text-to-SQL)技术,用自然语言查询数据库。
- 具身记忆 (Embodied Memory):这是一种更深层次的记忆,指的是通过微调 (fine-tuning),将经验和行为模式“烧录”进模型本身的参数(权重)中。这使得模型的“本能反应”发生改变。
关键洞见:到底该存储什么?
拥有记忆系统后,一个更重要的问题是:我们应该往里面存什么?
- 存储“经验” (Experiences):不仅要存储成功的任务,更要明确地存储“失败的经验”。研究者强调,通过显式地标记“这是一次失败的尝试”,LLM可以学会避免在未来重蹈覆辙。
- 存储“程序” (Procedures):代理应该能从经验中“归纳”出可重用的工作流。研究者提到了 AWM (代理工作流记忆) 技术,它可以分析多次成功的经验,自动总结出一个“标准作业流程”(SOP),并将其存储起来,供未来在相似任务上直接调用。
- 存储“知识”与“用户信息”:这包括外部事实(如公司规则) 和用户个人信息(如偏好、历史活动等)。研究中提到了MemoryBank 等系统,它们能帮助代理理解并适应用户的个性。
挑战:“记忆管理” 当记忆库变得庞大时,就会出现 “记忆复制”(Memory Duplication)问题。如果存了100条“登录成功”的经验,不仅浪费空间,检索效率也低。 研究者提出了一种巧妙的 “记忆压缩”策略:当某个子目标(如“登录”)的成功序列存储达到一定数量(例如5条)时,系统会触发一次LLM调用,将这5条相似的序列“浓缩”成一个更通用、更鲁棒的统一计划,然后用这个新计划替换掉原来的5条旧记录。
五、深入蓝图之四:执行系统
代理的“手脚”,从决策到行动
挑战:推理系统产生的“计划”只是一个抽象的想法。执行系统是代理的“手脚”,负责将这个想法变为现实世界中的具体行动。
研究者介绍了从简单到复杂的执行机制:
- 工具与API集成 (Tool and API Integration):这是最基本、最可靠的执行方式。代理被授予一个预定义好的“工具箱”(例如,
send_email(to, body),search_web(query))。代理的“行动”就是生成一个结构化输出(通常是JSON),来指定它想调用哪个工具以及使用什么参数。 - 多模态行动空间 (Multimodal Action Spaces):这是代理能力的巨大飞跃,使其能与文本之外的环境互动。
- 视觉界面自动化 (Visual Interface Automation):这是代理的“物理手指”。结合感知系统的理解,代理可以生成精确的鼠标点击、键盘输入和拖拽操作。这使得代理能操作任何软件或网页,即使它们没有提供API。
- 代码生成与执行 (Code Generation)(终极武器):这是最强大、最灵活的执行方式。当代理面对一个没有现成工具的复杂任务时(例如“分析这个CSV文件并绘制一张柱状图”),它可以动态地编写并执行一段代码(例如Python脚本)来完成这个任务。这赋予了代理几乎无限的解决问题的能力。
- 机器人与物理系统控制 (Robotic Control):在更高级的应用中,代理可以处理来自物理传感器的真实数据,并生成运动规划和控制指令,以操控机器人手臂或其他物理设备。
六、通往自主的荆棘之路:我们还面临的真实挑战
这篇论文描绘了一幅令人振奋的蓝图,但也非常诚实地指出了通往真正自主智能的“拦路虎”。
最大的挑战:与人类的巨大性能差距 研究者引用了一个名为OSWorld的基准测试,它要求代理在真实的操作系统环境中完成开放式任务。结果令人警醒:

- 人类的平均任务完成率超过 72.36%。
- 顶尖的AI代理(截至2025年6月)的完成率仅为 42.9%。
这近30%的巨大鸿沟,源于几个核心难题:
- GUI落地困难 (GUI grounding):代理仍然难以精确地将截屏中的视觉元素(如按钮)与执行操作(如点击)所需的坐标完美映射。
- 重复动作 (Repetitive actions):代理时常会“卡住”,陷入无法摆脱的重复动作循环中,表明其规划或反思机制尚不完善。
- 无法处理“窗口噪音” (Unexpected window noise):代理对预期之外的UI变化(例如突然弹出的广告窗口、对话框)极其脆弱,这会立刻打断它的执行流程。
- 成本与数据高墙:训练和微调这些强大的感知和推理系统异常昂贵。更糟糕的是,许多最先进的模型(如GPT-4V)是闭源的,研究者无法对其进行微调,极大地阻碍了“具身记忆”等技术的发展。
七、对AI工程师的启示:从“提示词”转向“认知架构”
这篇论文的价值远超一篇学术综述,它为所有致力于构建AIGC应用的工程师和产品经理提供了深刻的启示:
- 从“提示词工程”转向“系统工程”:构建强大的代理,关键不在于那个“完美提示词”,而在于一个鲁棒的“认知架构”。必须像设计一个复杂的软件系统一样,去设计代理的感知、推理、记忆和执行模块。
- “反思”是“自主”的灵魂:一个没有反思和纠错机制的代理,只是一个脆弱的工作流。研究中提到的“事后反思” 和“事前反思”(魔鬼代言人) 应当成为设计的核心功能,而不是可有可无的附加项。
- “记忆”不是简单的“挂载”:研究者提醒,不要以为挂个向量数据库就等于有了记忆。真正的记忆系统是一个主动的、有管理的过程。必须精心设计存储什么(尤其是失败经验)和如何管理(例如记忆压缩)。
- “多专家系统”是可扩展的未来:与其试图构建一个无所不能的“全才”代理,不如尝试 “多代理专家团队” 思想。构建多个小而精的“专家”代理,让它们协同工作,是实现复杂、鲁棒功能的更优路径。
八、写在最后:从“罐中之脑”到“心智涌现”
历史走到了必然的下一步:智能需要“肉身”。
我们正处于AI演化的第四个阶段,从“认知智能”迈向“自主智能”(Autonomous Intelligence)的黎明。
未来的道路还很漫长,研究者也指出了“一次性学习”(Learn-from-one-shot,即人类演示一次,代理就能学会) 这样更远大的目标。
这篇论文就是那座灯塔,它照亮的不仅是技术的前路,更是我们对“智能”本身定义的重塑。我们追求的,终将不是一个更快的计算器或更博学的百科全书,而是一个能与我们并肩作战、感知世界、执行任务、并不断进化的“认知协作者”。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。


👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

被折叠的 条评论
为什么被折叠?



