AI大模型：手把手教你从零搭建Agent框架（附教程）

AI大模型教程

于 2025-03-25 11:32:39 发布

阅读量1k

点赞数 17

文章标签：人工智能程序员 deepseek RAG ollama agent 智能体

本文链接：https://blog.youkuaiyun.com/2401_82469710/article/details/146499080

版权

源码

github.com/OceanPresen…

AI Agent

Agent的核心思想是使用语言模型来选择要采取的一系列操作。在Agent中，语言模型被用作推理引擎来确定要采取哪些操作以及按什么顺序。相比于传统机械或软件被动的“给予输入——>做出输出”的模式，Agent 由于更加强调自主的发现问题、确定目标、构想方案、选择方案、执行方案、检查更新的特性，因此可以被认为是一类拥有“自主智能的实体”，而被广泛称之为智能体。

⚠️下文介绍的Plan/Memory/Tool三组件只是Agent框架一种简单的拆分（参考了LangChain），除此外还有多种理解Agent框架的视角，读者若感兴趣可以自行学习以下Agent框架

Baby Agent
Auto GPT
Agents框架
清华大学的XAgent

Planning 规划

子目标和分解：AI Agent 将大型任务分解为更小的、可管理的子目标，从而能够有效处理复杂的任务。
反思和完善：Agent可以对过去的行为进行自我批评和自我反思，从错误中吸取教训，并针对未来的步骤进行完善，从而提高最终结果的质量。

Memory 记忆

短期记忆：所有的上下文学习（参见提示工程）都是利用模型的短期记忆来学习。
长期记忆：这为AI Agent提供了长期保留和调用无限信息的能力，通常是通过利用外部向量存储和快速检索来实现。

Tool / Toolkit

Agent学习调用外部 API 来获取模型权重中缺失的额外信息，通常这些信息在预训练后很难更改，包括当前信息、代码执行能力、对专有信息源的访问等。

工具是代理可以调用的功能，本质上就是一个函数。使用工具是AI Agent最迷人最先进的特性

思考框架

CoT

语言智能可以被理解为“使用基于自然语言的概念对经验事物进行**‘理解’以及在概念之间进行‘推理’**的能力”

理解能力上，作为“语言模型”的大模型具备概念理解能力并不难理解，但是仅仅像 Word2vec 一样只能得到“国王”与“男人”的“距离”更近的结论对于语言智能而言必然远远不够

真正让人惊讶的是大模型在推理上的能力涌现。推理，一般指根据几个已知的前提推导得出新的结论的过程，区别于理解，推理一般是一个“多步骤”的过程，推理的过程可以形成非常必要的“中间概念”，这些中间概念将辅助复杂问题的求解。

2022 年，在 Google 发布的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中首次提出，通过让大模型逐步参与将一个复杂问题分解为一步一步的子问题并依次进行求解的过程可以显著提升大模型的性能。而这一系列推理的中间步骤就被称为思维链（Chain of Thought）。

CoT大家应该都比较熟了，使用它的方法很简单：

对于Zero-Shot，只需要在Prompt的结尾加一句：

Python
复制代码
Let's think step by step

对于One-Shot或Few-Shot，需要在Prompt中适当地为大模型提供一些示例

拓展：CoT其实也在逐渐进化，出现了各种让大模型进行复杂链路思考的方式

ReAct

无论是环境的反馈，还是人类的指令，Agent 都需要完成一个对接收到的信息进行“理解”，并依据得到的理解进行意图识别，转化为下一步任务的过程。在前文中之所以介绍CoT，是因为使用 CoT 可以大大帮助模型对现有输入进行“感知”，激活大模型对任务的拆分规划和推理能力。借鉴CoT，我们可以归纳出基本的Agent框架并延伸，ReAct就是其中之一

从 Yao等人，2022(opens in a new tab) 引入了一个框架，其中 LLMs 以交错的方式生成 推理轨迹 和 任务特定操作 。

生成推理轨迹使模型能够诱导、跟踪和更新操作计划，甚至处理异常情况。操作步骤允许与外部源（如知识库或环境）进行交互并且收集信息。

ReAct 框架允许 LLMs 与外部工具交互来获取额外信息，从而给出更可靠和实际的回应。

结果表明，ReAct 可以在语言和决策任务上的表现要高于几个最先进水准要求的的基线。ReAct 还提高了 LLMs 的人类可解释性和可信度。总的来说，作者发现了将 ReAct 和链式思考 (CoT) 结合使用的最好方法是在推理过程同时使用内部知识和获取到的外部信息。

运作机理

ReAct 的灵感来自于 “行为” 和 “推理” 之间的协同作用，正是这种协同作用使得人类能够学习新任务并做出决策或推理。

链式思考 (CoT) 提示显示了 LLMs 执行推理轨迹以生成涉及算术和常识推理的问题的答案的能力，以及其他任务 (Wei等人，2022)(opens in a new tab)。但它因缺乏和外部世界的接触或无法更新自己的知识，而导致事实幻觉和错误传播等问题。

ReAct 是一个将推理和行为与 LLMs 相结合通用的范例。ReAct 提示 LLMs 为任务生成口头推理轨迹和操作。这使得系统执行动态推理来创建、维护和调整操作计划，同时还支持与外部环境(例如，Wikipedia)的交互，以将额外信息合并到推理中

常用模板：

Python
复制代码
Answer the following questions as best you can. You have access to the following tools:

{tools}

Use the following format:

Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [{tool_names}]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can repeat N times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question

Begin!

Question: {input}
Thought:{agent_scratchpad}

搭建一个ReAct框架

简单的ReAct

先对各组件进行硬编码。我们为大模型提供一个get_word_length工具（Tool），使用ReAct框架看看他能否解决一些基本问题

System Prompt：

Python
复制代码
Answer the following questions as best you can. You have access to the following tools:

get_word_length(word: str) -> int:
    """Returns the length of a word."""

Use the following format:

Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [get_word_length]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can repeat N times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question

Begin!

User Input：

Python
复制代码
Question:How many letters in the word educa

⚠️注意！这里只是简单在用大模型调试prompt，get_word_length工具并没有具体的代码实现也没有运行。之所以能算出结果都是靠大模型自身的推理能力！

Agent

Agent相当于整体框架的思维推理系统，通常由大模型、Prompt提供支持。不同的智能体有不同的推理提示风格、不同的输入方式以及不同的解析输出方式，依赖于用户对应用的自定义，说白了就是对大模型进行一层封装更方便管理

这里提到的Agent其实就是大模型本身，我们在框架中最好将大模型的API进行面向对封装，方便与框架中其他组件交互

这里我使用的是OpenAI 的GPT-3.5-turbo模型

TypeScript
复制代码
class LLMSingleActionAgent {
  llm: AzureLLM
  tools: StructuredTool[]
  stop: string[]
  private _prompt: string = '{input}'
  constructor({ llm, tools = [], stop = [] }: LLMSingleActionAgentParams) {
    this.llm = llm
    this.tools = tools
    if (stop.length > 4)
      throw new Error('up to 4 stop sequences')
    this.stop = stop
  }
 }

Agent Inputs 代理输入

对大模型的输入可以是普通的Prompt字符串；也可以是键值对，结合Prompt Template拼接出最终的Prompt字符串

Agent Outputs 代理输出

输出是要执行的下一个操作或要发送给用户的最终响应（ AgentAction 或 AgentFinish ）

对大模型的输入可以是普通的Prompt字符串；也可以是键值对，结合Prompt Template拼接出最终的Prompt字符串。我们这里使用ReAct框架，每次输入的Prompt都有固定的模板Template（见上文ReAct的模板）。因此需要一个填充模板的函数，我们简单约定变量按{var}的格式插入，用正则表达式将字符串替换

TypeScript
复制代码
function fillPromptTemplate(promptTemplate: string, inputs: promptInputs) {
  let res = promptTemplate

  for (const [key, val] of Object.entries(inputs))
    res = res.replaceAll(new RegExp(`{\s*${key}\s*}`, 'g'), val)

  return res
}

Action

AgentAction 代理行动

这是一个数据类，表示代理应采取的操作。它有一个 tool 属性（这是应该调用的工具的名称）和一个 tool_input 属性（该工具的输入）

AgentFinish 代理完成

这表示代理准备好返回给用户时的最终结果。它包含一个 return_values 键值映射，其中包含最终的代理输出。通常，这包含 output 键，其中包含代理响应的字符串。

Intermediate Steps 中间步骤

这些代表先前的代理操作以及当前代理运行的相应输出。这些对于传递到未来的迭代非常重要，因此代理知道它已经完成了哪些工作。其类型为 List[Tuple[AgentAction, Any]] 。请注意，观察目前保留为 Any 类型，以实现最大程度的灵活性。实际上，这通常是一个字符串。

Tool

在Prompt中描述工具

TypeScript
复制代码
export abstract class StructuredTool {
  name: string
  description: string
  constructor(name: string, description: string) {
    this.name = name
    this.description = description
  }

  abstract call(arg: string, config?: Record<string, any>): Promise<string>

  getSchema(): string {
    return `${this.declaration} | ${this.name} | ${this.description}`
  }

  abstract get declaration(): string
}

工具类有name和description两个属性，通过getSchema函数返回对该工具的文本描述。这里我们先简单地将两个描述信息拼接一下，为Agent提供4个算数工具

⚠️注意！这里只是简单在用大模型调试prompt，这几个工具并没有具体的代码实现也没有运行。之所以能算出结果都是靠大模型自身的推理能力！（简单的加减乘除即使没有外部工具他也能做到）

Python
复制代码
1. Addition Tool: A tool for adding two numbers
2. Subtraction Tool: A tool for subtracting two numbers
3. Division Tool: A tool for dividing two numbers
4. Multiplication Tool: A tool for multiplying two numbers

简单地运行一个应用算术题：

尽管Agent经过多步思考成功解决了这个问题，但有个小bug，在第二步中，Agent调用乘法工具传入了3个参数。如果我们实现工具的时候函数只接受两个参数这里就会报错。

出现这个问题是因为我们提供的工具描述还不够准确，不仅要提供工具的名字和功能描述，最好的就是将函数的声明也带上。因为我们的函数代码本身是硬编码的，要尽一切可能降低大模型输出的随机性，严格按我们的要求输出

为工具函数生成函数声明

方案一：手动Copy

一个笨办法就是直接copy自己写的函数声明，硬编码到工具的description中。

按两下cv键还是很快的。缺点就是1. 不够灵活，修改函数声明时需要把硬编码的字符串也更改 2. 万一写的是宽松类型的代码（js、python），还得自己想函数声明

例如对于call函数，直接把这个复制下来放到description中就行了

方案二：AI自动生成

根据“大模型不收敛”定理——当你想为大模型做一件事时，先想想这件事本身是不是也能让大模型做。我们也可以让大模型为工具函数生成函数声明

使用下面的prompt：

Python
复制代码
请为下面的{language}代码生成函数声明：
{code}

同理也可以帮助生成函数功能描述

Python
复制代码
请用一两句话描述下面{language}代码的功能：
{code}

该方案的优缺点和方案一相同。主要针对宽松类型的代码，省了点脑子

方案三：zod自动生成

Zod 是一个以 TypeScript 为首的模式声明和验证库，弥补了 TypeScript 无法在运行时进行校验的问题

依靠zod的一些插件，我们可以直接将zod定义的类型对象转换成类型声明字符串

例如：

zod-to-ts: Generate TypeScript definitions from Zod schemas.
zod-to-json-schema: Convert your Zod schemas into JSON Schemas.
zod-to-openapi: Generate full OpenAPI (Swagger) docs from Zod, including schemas, endpoints & parameters.

根据自己应用联调的需求选择即可

优点就是非常灵活，且支持运行时。唯一的缺点就是要学习zod的用法

将函数声明加入Prompt后，可以看到Agent学会了多次进行乘法，符合我们的函数声明

⚠️如果大模型实在是笨的学不会传入正确数量的参数，那就只能将我们的工具函数修改为兼容动态参数的形式了。

Executor

代理执行器executor是Agent的运行时，可以理解为AI Agent的大脑，他协调各个组件并指导操作。这实际上是调用代理，执行它选择的操作，将操作输出传递回代理，然后重复

TypeScript
复制代码
class AgentExecutor {
  agent: LLMSingleActionAgent
  tools: StructuredTool[] = []
  maxIterations: number = 15

  constructor(agent: LLMSingleActionAgent) {
    this.agent = agent
  }
  
  addTool(tools: StructuredTool | StructuredTool[]) {
    const _tools = Array.isArray(tools) ? tools : [tools]
    this.tools.push(..._tools)
  }
}

最关键的就是executor的执行循环了，executor会始终进行如下事件循环直到目标被解决了或者思考迭代次数超过了最大次数：

根据之前已经完成的所有步骤（一个步骤包括 ReAct框架中的 Thought、Action、Observation）和目标（用户的问题）规划出接下来的Action（使用什么工具以及工具的输入）
检测是否已经达成目标，即Action是不是ActionFinish。是的话就返回结果，不是的话说明还有行动要完成
根据Action，执行具体的工具，等待工具返回结果。工具返回的结果就是这一轮步骤的Observation
保存当前步骤到记忆上下文，如此反复

TypeScript
复制代码
async call(input: promptInputs): Promise<AgentFinish> {
    const toolsByName = Object.fromEntries(
      this.tools.map(t => [t.name, t]),
    )

    const steps: AgentStep[] = []
    let iterations = 0

    while (this.shouldContinue(iterations)) {
      const output = await this.agent.plan(steps, input)
      console.log(iterations, output)

      // Check if the agent has finished
      if ('returnValues' in output)
        return output

      const actions = Array.isArray(output)
        ? output as AgentAction[]
        : [output as AgentAction]

      const newSteps = await Promise.all(
        actions.map(async (action) => {
          const tool = toolsByName[action.tool]

          if (!tool)
            throw new Error(`${action.tool} is not a valid tool, try another one.`)

          const observation = await tool.call(action.toolInput)

          return { action, observation: observation ?? '' }
        }),
      )

      steps.push(...newSteps)

      iterations++
    }

    return {
      returnValues: { output: 'Agent stopped due to max iterations.' },
      log: '',
    }
  }

运行

这里我们为大模型提供了加减乘除四个工具（按理来说这四个工具不需要实际的函数大模型也可以执行hhhh，但本质上是不一样的）我们可以看到大模型最后成功迭代出了计算结果为9336元

TypeScript
复制代码
describe('agent', () => {
  const llm = new AzureLLM({
    apiKey: Config.apiKey,
    model: Config.model,
  })
  const agent = new LLMSingleActionAgent({ llm })
  agent.setPrompt(REACT_PROMPT)
  agent.addStop(agent.observationPrefix)
  agent.addTool([new AdditionTool(), new SubtractionTool(), new DivisionTool(), new MultiplicationTool()])

  const executor = new AgentExecutor(agent)
  executor.addTool([new AdditionTool(), new SubtractionTool(), new DivisionTool(), new MultiplicationTool()])
  it('test', async () => {
    const res = await executor.call({ input: '一种减速机的价格是750元，一家企业需要购买12台。每台减速机运行一小时的电费是0.5元，企业每天运行这些减速机8小时。请计算企业购买及一周运行这些减速机的总花费。' })
    expect(res).toMatchInlineSnapshot(`
      {
        "log": "Final Answer: The total cost of purchasing and operating the gearboxes for a week is 9336 yuan.",
        "returnValues": {
          "output": "The total cost of purchasing and operating the gearboxes for a week is 9336 yuan.",
        },
      }
    `)
  }, { timeout: 50000 })
})

可改进的地方

处理代理选择不存在的工具的情况
加入更复杂的记忆Memory系统
多个Agent合作
更复杂的工具，在一个Action中调用多个工具
处理工具错误的情况
处理代理生成无法解析为工具调用的输出的情况
所有级别（代理决策、工具调用）的日志记录和可观察性到标准输出

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

基于此，我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近70次后，终于把整个AI大模型的学习门槛，降到了最低！

在这个版本当中：

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲，跟着我做即可，为了让学习的道路变得更简单，这份大模型教程已经给大家整理并打包，现在将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉优快云大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望