大模型智能体必备技能：感知、规划、记忆与工具使用，建议收藏学习

最新推荐文章于 2025-12-28 00:20:23 发布

原创最新推荐文章于 2025-12-28 00:20:23 发布 · 859 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #人工智能 #语言模型 #自然语言处理 #大模型 #机器学习 #架构

部署运行你感兴趣的模型镜像

要让大模型智能体摆脱 “只会输出文本” 的局限，真正具备与现实世界交互的 “实战能力”，离不开四大核心支柱：感知、规划、记忆与工具使用。这四大能力如同智能体的 “四肢与大脑”，共同支撑其从 “纸上谈兵” 走向 “落地解决问题”—— 无论是查询实时天气、拆解复杂数学题，还是长期记住用户偏好，都需要它们协同作用。

不过，早期的大语言模型（LLM）并不具备这些能力。它们依托海量文本数据训练，是天生的 “语言专家”，能流畅对话、撰写文案、理解文字逻辑，但一旦遇到需要 “动手操作”（如调用工具）、“分步思考”（如解决多步骤问题）或 “长期记忆”（如跨会话记住用户需求）的场景，就会暴露出明显短板：要么凭空编造信息，要么逻辑断裂，要么转头就忘。

为了补齐这些短板，研究界围绕三大核心问题展开探索：如何让模型熟练调用外部工具？如何让模型像人类一样拆解问题、逐步推理？如何为模型构建 “长期记忆” 以衔接复杂任务？这些方向的突破，正是大模型智能体从 “能用” 走向 “好用” 的关键。

1 、工具学习

大语言模型虽然能聊天、写文章，但要真正帮我们解决问题，光靠说是不够的，还得学会用工具。比如你问它：请告诉我上海今天的天气。如果它具备工具使用能力，就不会凭空编答案，而是会调用一个天气查询API，返回最新的天气情况。

研究人员把这种能力称为 工具学习（Tool Learning）。核心目标是让模型不仅会说话，还会动手去操作外部工具，从而满足各种现实需求。

工具学习是怎么训练出来的？

以 ToolLLaMA 为例，研究者们设计了一个三步走的流程来教模型：

收集工具（API）
研究人员从 RapidAPI 这样的平台上抓取了大量真实世界的工具和接口说明，比如输入参数、调用方法和示例返回值。经过筛选，最后留下了 3451 个高质量工具，覆盖 49 大类和 500 多个细分领域。
生成指令
光有工具还不够，还要让模型知道用户可能会如何提问。于是研究人员用 ChatGPT 自动生成了各种与工具相关的任务指令，比如单一工具调用、多工具组合调用等，最后得到了近 20 万条“问题—工具”配对数据。
标注解决路径
每条任务指令对应的“调用步骤”也要明确。研究人员用 ChatGPT 的函数调用功能来生成这些路径，并引入一种类似深度优先搜索的方法，让模型能够探索多种可能的调用方式。最终得到了 12.6 万条高质量的指令-解决路径数据。

工具学习中的挑战

虽然看起来很完善，但现实中仍有不少问题：

数据错误：很多训练数据集都是用 GPT-4 自动生成的，但其中约有 17% 的调用轨迹是错误的，比如调用了不存在的工具、参数写错了等。这些错误会误导模型，降低性能。
关键词元问题：研究发现，模型在工具调用时，一旦第一个关键词（比如工具名的开头）预测错误，后面就很容易一路错下去；但如果人工纠正第一个词，后续往往就能正确生成。
性能瓶颈：即使用大规模数据集训练，像 ToolLLaMA-2-7B 的效果也只达到 GPT-4 的 80% 左右。

新方法：TL-Training

为了解决这些问题，研究人员提出了一种叫 TL-Training 的改进训练方法，它包含三大策略：

过滤错误数据
自动识别并屏蔽错误的调用轨迹，避免它们对模型产生负面影响。
重点学习关键词
对工具名称和关键参数等“关键词元”赋予更高的权重，让模型在预测时更重视这些词。
强化学习优化
引入奖励机制，不同类型的错误给出不同的扣分，例如：

调用了不存在的工具：-2
工具名称对了但参数写错：-0.5 ~ -1.5
正确调用：+1
然后用强化学习（PPO 算法）不断调整模型，使它越来越“靠谱”。

实验结果显示，只用 1217 条训练数据，TL-Training 就能让 CodeLLaMA-2-7B 的工具使用能力接近 GPT-4o。这说明，靠更聪明的训练方法，而不是一味依赖大规模数据，也能让模型更好地学会用工具。

2 、推理规划

对一个智能体来说，光能聊天还不够，它必须具备推理和规划能力。只有这样，AI 才能理解环境和任务，制定合理的行动步骤，并一步步执行，最终达成目标。

不过，研究发现：单纯把模型做大，并不能显著提升它的推理能力。比如在常识推理、逻辑推理、数学题解答上，大模型还是容易犯错。那该怎么办呢？

研究人员借鉴人类的解题习惯，提出了两种特别有效的方法：思维链提示（Chain-of-Thought, CoT） 和 由少至多提示（Least-to-Most Prompting）。

1）思维链提示

方法一：思维链提示，一步一步想

人类在解题时，通常会把解题过程写下来：先分析条件，再列式子，最后得出答案。相比之下，大模型以前的做法往往是，直接蹦出答案，没有任何中间推理步骤。结果往往准确率不高，还缺乏解释性。

为了解决这个问题，Google Brain 的研究人员提出了 思维链提示（CoT）：

在给模型问题时，不只提供最终答案，还提供“中间的解题思路”；
引导模型先输出推理步骤，再得出结果。

这样，模型就像学生一样，边思考边写草稿，最后得到更靠谱的答案。

更有意思的是，后来研究人员发现，只需要在问题前面加上一句 “让我们一步一步思考”，哪怕没有示例，模型也会自动生成中间步骤。这就是所谓的 零样本思维链（Zero-shot CoT）。

方法二：由少至多提示，化整为零

面对一个复杂的问题，人类常常会先拆解：把大问题分成小问题，逐个解决，最后拼出答案。大模型同样可以这样做。

这种方法被称为 由少至多提示（Least-to-Most Prompting）：

先让模型把复杂任务拆成多个简单子任务；
然后逐一求解；
最后合并结果，完成整体推理。

通过这种方式，模型在处理复杂任务时的成功率大大提高。

自动化的思维链构建

虽然思维链方法很有效，但最初的研究大多依赖人工写的推理过程。问题在于，不同人写的示例质量差异很大，准确率差别甚至能达到 28%！

后来，研究人员发现：

示例的多样性 比单纯的相似度更重要；
也就是说，要让模型学得好，给它看的推理示例不能千篇一律，而要覆盖不同风格和角度。

基于这一发现，上海交通大学和 AWS 的研究团队提出了 Auto-CoT 方法：通过自动收集多样化的问题，并为它们生成推理链，来构建更有效的训练示例。

Auto-CoT 包括以下两个主要阶段：

（1）问题聚类：将给定数据集中的问题划分为几个簇（Cluster）

（2）范例采样：从每个簇中选择一个代表性问题，并基于简单的启发式方法使用 Zero-shot CoT生成问题的推理链。

在链式思维的研究中，Auto-CoT 算法提供了一种自动化生成推理示例的方法。它的核心思路是：通过聚类来保证示例的多样性，从而避免因为样本过于相似而带来的推理偏差。

具体来说，Auto-CoT 会先利用 Sentence-BERT 把问题集合转化为向量表示，然后使用 K-means 聚类将问题分成若干簇。在每个簇中，问题会根据与簇中心的距离排序，越接近中心的问题越优先被选为候选。

在生成推理链时，Auto-CoT 会对每个候选问题构造提示，让模型按照“让我们一步一步思考”的方式作答，并得到解释和答案。如果生成的推理步骤不超过 5 步、问题本身长度不超过 60 个词元，那么该示例就会被保留下来，作为该簇的代表性范例。这样得到的推理链示例既简洁，又具有代表性。

在此基础上，研究者还提出了几种改进方法：

Complex-CoT：优先选择那些推理过程最复杂的问题作为示例，帮助模型更好地处理复杂任务。
Self-Polish：从问题本身入手，把原本复杂、模糊甚至质量较低的问题改写成更清晰、更高质量的形式，从而提升模型理解和生成推理链的能力。

总体而言，这些方法的共同目标都是提升 CoT 的有效性：既要保证示例的多样性，又要提升示例的质量。

2）由少至多提示

在面对复杂问题时，人类通常会把大问题拆解成若干个小问题，然后逐一解决，最后再把答案拼接起来得到完整的结果。这种思维方式被称为 任务分解（Task Decomposition）。

研究人员受到这一启发，提出了一种叫做 由少至多提示 的方法。它的核心思想是利用大语言模型的规划能力，把一个复杂问题拆分成一系列更容易处理的子问题，并一步步解决它们。

整个流程大致分为两个阶段：

问题分解阶段：模型先学习如何把原始问题拆分成子问题，并形成一个子问题列表。
逐步解决阶段：模型会按照子问题的顺序逐一作答，每解决一个子问题，就把结果作为“中间答案”保存下来，帮助它继续解下一个问题，直到得出最终答案。

这种方式就像解谜游戏：先把大谜题分解成小块，再逐一拼接，最终得到完整的图景。

3、 AgentTuning

为了让大语言模型在更多场景下具备动手能力，研究人员提出了一种叫做 AgentTuning 的方法。它的目标是让模型在保持通用推理能力的同时，更好地完成各种智能体任务，比如操作系统指令、网页交互、数据库查询等。

AgentTuning 的核心有两部分：

一个轻量级的数据集： AgentInstruct
它收集了 1,866 条高质量的交互数据，这些数据不仅有“答案”，还包含模型的完整推理过程（Chain-of-Thought），覆盖了六类任务：虚拟环境操作（AlfWorld）、网络购物（WebShop）、网页浏览（Mind2Web）、知识图谱、操作系统和数据库。
一种混合调优策略
通过结合不同类型的指令调优方式，提升模型的泛化性。

数据构建方式很有意思：

对于已经有训练数据的任务（如 AlfWorld、WebShop），研究人员直接利用原始数据，再加上交互和过滤。
对于缺乏数据的任务（如操作系统、数据库），则要“自造数据”：

数据库任务：以 BIRD 数据集为基础，利用 GPT-4 生成推理过程，并通过执行 SQL 语句来比对答案，筛选出正确轨迹。
操作系统任务：直接让 GPT-4 设计任务和解决方案，再由 GPT-4 自己去“操作终端”并生成交互轨迹，最后通过比对结果来确认哪些数据是有效的。

交互过程是这样进行的：
给模型一个任务说明和一个示例，然后让它进入真实的“对话式操作”：

模型先“思考”（生成 Thought），再采取行动。
环境会反馈新的信息或状态。
模型再基于反馈继续操作，直到完成任务或者失败。

如果模型总是卡在重复输出，或者输出的格式不符合要求，就会通过自动指标（比如 BLEU 分数）来纠正或丢弃这些轨迹。最终，只有高质量的数据会被保留下来。

在实验中，研究人员用 AgentTuning 对 Llama 2 进行了微调，得到一个叫 AgentLM 的开源模型。测试结果显示：

AgentLM 在未知的智能体任务上表现良好；
在一些标准基准测试（MMLU、GSM8K、HumanEval、MT-Bench）上仍然保持很强的综合能力；
特别是 AgentLM-70B，它在智能体任务上的表现已经接近 GPT-3.5-turbo。

简而言之，AgentTuning 就像是给大模型加上了一门“实操训练课”，不仅能解题，还能在更接近真实世界的环境里完成任务

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】