阿里大模型面试：搞懂Agent刷掉了80%的人（文末有福利）

最新推荐文章于 2025-08-14 14:17:15 发布

原创最新推荐文章于 2025-08-14 14:17:15 发布 · 1.3k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#面试 #职场和发展 #AI大模型 #大模型面试 #Agent #LLM #大语言模型

为了解放生产力，人们发明了算法去控制、代替重复劳动的工作。

随着大语言模型（LLM）的发展，人们不再偏好局限性的算法，而利用 LLM 的思考，规划能力，并为其赋予可以格式化调用的工具（如 api），进一步的满足人们不同的需求。

同时，外部工具的引入，更加先进的 Prompt Engineering 技术，RAG、KAG 等外部信息库的补充，也进一步增强了 LLM 能力。

本文尝试从 Single Agent，以 Camel-ai.org 为代表的一系列 multi-agents 框架，Agents Universe 的构建与统一化协议，AI for science、Applications 分析与介绍。

我这边整理了一百套大模型面试题，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】 👉 福利来袭优快云大礼包：《2025最全AI大模型学习资源包》免费分享，安全可点 👈

What is agent?

什么是智能体？在强化学习中通常把智能体看做是一个决策实体，在环境中采取行动并通过与环境的交互来学习如何最大化其长期回报的实体。

在应用层面，我们将大语言模型接入各种应用 api，引入知识图谱 RAG、思维链 CoT 等技术，让 LLM 不仅有预训练的丰富知识还可以利用各种工具，完成更具体的、更丰富的任务，成为一个能力更加强悍的智能体。

智能体通常由三个部分组成：

Planing & Reasoning
Memory
Tool use & Action

（1）Planing

看作是对问题进行一个总体的规划，通过提示词让 LLM 思考该如何回答这个询问或完成这个问题。

比如 LLM 尝试规划一条 Step by step 的解决问题路径或是将主任务分解几个小任务，接下来再这个一个一个解决问题。

通常有如下四种方案：

将复杂任务分解为多个子任务，然后逐一规划解决每个子任务。
生成多个备选计划，并通过某种搜索算法选择最优计划执行
通过LLM形式化任务，然后使用外部规划器来生成计划。
先生成计划，然后进行反思，最后根据反思结果精炼计划。

（2）Reasoning

LLM 需要对过去的行为进行自我批评和反思，从错误中吸取教训，并为未来的步骤进行改进，加入反思会显著提高 LLM 的回答质量。

关于 LLM 推理，可以参考 Lilian Weng 的博客和 Prompt Engineering Guide 网站。基础的 Chain of Thoughts 链状推理在大部分场景足够使用。

最近也看到很多有意思的研究：

快慢思维协调的 Talker-Reasoner 系统： talker 快速反应 reasoner 深度思考，二者即可分开工作也可协同反应；慢思考在面部识别、有存在异常干扰的数据分类任务上表现不如快思考；

逆向规划： 类似于传统搜索算法中的AI算法，不仅有前向的思维链思考，还有从目标逆向的思考：

思维马尔可夫链 MCoT ： 与传统的多步推理不同，MCoT 将每一步推理视为一个状态转换过程，并且在简化问题后清除上下文缓存，从而支持更长的推理路径；

Stream of Search (SoS) ： 通过 CoT 生成的包含正确答案和错误尝试的数据对 LLM 微调，让其学习搜索与回溯的能力；

动态推理 DOTS ： 给定一些推理策略，让 LLM 能够根据问题的具体特征和自身的能力，让自己选择最优的推理策略；

一个有趣的观点： 从信息论角度来理解 CoT 的作用；其实关于 LLM 推理的问题，其实可以建模成熟悉的数据结构，链也好（CoT），树也好（ToT），图也罢（GoT），结合传统数据结构的搜索回溯算法，去进行推理路径的选择。

或是建模成优化问题，关注 Explore 和 Explicit（或许与快慢思考有一定对照关系）去探索尝试。

除了 prompt 设计外，越来越多的是在RL偏好对齐或者 SFT 层直接对思维链数据进行训练，锻炼模型的思考能力。

（3）Memory

人类的记忆可大致分类为感官记忆、短期记忆、长期记忆，与之对应为大模型的多模态输入时的原始嵌入表示，对话交互，以及在外部储存的对话中提取的信息。

前二者是模型本身架构的限制，通常在 128k 上下文长度，最多 8k 的生成内容。

为了有效增强与 LLM 对话的准确性和丰富性，引入可以视为长期记忆的外部知识检索库，如 RAG 技术。关于知识检索，与计算机系统的文件系统、数据库检索有一定的相似性。

（4）Tool Use & Action

通过 Json 格式化输出，调用所需要使用的 api 接口或是其他资源工具，让 LLM 不止停留在说而可以做。同样，每一次工具调用得到反馈我们也可以进行一次反思总结。

同时每一次 action 都随着反馈进行 reasoning 和优化 LLM 下一步的决策，如 StepTool，为每一步工具调用涉及奖励进行分布强化学习，每一步后进行选择优化。

因为 LLM，我们现在可以使用自然语言去操控一个个软件，进一步的还可以操控其他智能体/模型。

1. 最基础的操控类似于 Google Search api，DeepL(一个翻译软件) api 等等。

一个有趣的例子是让 LLM 帮你订一张机票，其中通过对网页 html 代码的交互进行：

本文的思路是将整个订机票的流程拆解成一次次 html 的查找与虚拟的鼠标点击，对于每次给定 item 的点击操作，在 html 源码中查找 k 个大概率与之此 item 相关的指令，再选出最可能的执行操作。

在上图中，左侧即是目前已经执行的操作序列、对任务的描述和目前所在网页的html源码，右下角即是选出来的k个最可能指令.

2. LLM control LLM/Agent。如 HuggingGPT 框架，用 LLM 作为任务规划器，根据 Planing 结果选择 HuggingFace 平台中可用的模型，并根据执行结果总结。

3. 日前爆火的 Claude 新功能 computer use 和智谱的 AutoGLM 与传统的 api 交互有所不同，其通过 VLM(视觉语言模型)操控，如下是一个自动导航的例子：

有趣的是，斯坦佛 Yang Diyi 老师等发现了弹窗攻击对 VLM 决策的干扰极大，并且要求 Agent 忽略弹窗或包含广告提示等基本防御技术对攻击无效。

Profile(optional)：有时有 Role playing 角色扮演任务的需求，需要对 agent 添加角色资料的描述。这将在后面 AI+society science 的讨论提到。

出于不同的需要，我们可以大致将 Agent 分为如下几类：

Agent 的研究是具有潜力的，我认为其是学术和工业应用 gap 最小的方向。国内如扣子等平台，每个人都可以定制搭建自己的 Agent，又或者通过 camel，dspy，langchain 等成熟的库编写代码搭建。

About multi-agents

基于单智能体的思维局限性，长思维链条任务的表现不佳等因素，人们又尝试探索多智能体 multi-agents 之间的合作是否会带来更好的任务表现。

具体的讲，多智能体相对于单智能体：

能够提升回答的准确性与一致性，可以有效减少LLM的幻觉问题。
多智能体系统可以将任务分段，从而可以处理更加复杂的任务，同时可以容纳更长的上下文长度（清华 NLP 实验室的 MiniCPM 3.0 无限上下文的方案（后问详细介绍））同时可以并行处理任务。
通过角色扮演，不同的智能体可以带来不同的视角，使得任务回答更加全面完善。多智能体间也可以通过协作，结合不同模型的优势解决问题。

如下图，单个智能体的思维链，无论是 Chain of Thought(CoT) 还是 Tree of Thought(ToT)，我们将每一个 step 替换成一个 LLM 来做，每个 LLM 专注于自己的子任务，只负责一个小的 step。