从单一大型语言模型到智能体人工智能：生成式人工智能演进的解读-优快云博客

LangGraph和CrewAI等框架，以及MCP和A2A等协议，正在帮助开发者构建这些具有智能决策能力的系统。智能体人工智能已不再是一个研究概念，它已经在为Replit的Ghostwriter和Perplexity的Comet等系统提供动力，这些系统能够自主阅读、推理并代表用户采取行动。

生成式人工智能（GenAI）的发展历程宛如一场技术革命的史诗，从最初简单的单一大型语言模型（LLM）API调用，逐步演进到如今具备自主决策与协作能力的智能体系统。这场演进不仅改变了人工智能应用的构建方式，更重塑了人类与机器交互的模式。本文将通过可视化的视角，详细梳理这一演进路径，解析从单一大型语言模型到智能体人工智能的关键里程碑与技术突破。

生成式人工智能的全景概览

生成式人工智能的发展并非一蹴而就，而是经历了多个阶段的迭代与突破。回溯三年前，大多数技术团队在构建人工智能应用时，依赖的是针对特定任务的模型。例如，为分类任务训练一个模型，为抽取式问答再训练另一个模型。这些模型要么是使用scikit-learn或PyTorch等工具从零构建，要么是基于预训练的Transformer模型进行微调，以适应特定任务需求。

这种状况在GPT-3.5出现后发生了根本性转变。随着ChatGPT的推出，开发者们开始转向通用型大型语言模型，用其来处理曾经需要多个专用模型才能完成的任务。这标志着大型语言模型在批处理应用中的首次大规模应用——使用简单的提示模板处理数据集，而非构建复杂的自定义机器学习管道。一夜之间，人们不再需要为每个任务单独开发模型，只需设计高质量的“提示”即可。

批处理大型语言模型应用

批处理大型语言模型应用代表了生成式人工智能发展的第一个重要阶段，它为后续的技术演进奠定了基础。在这一阶段，应用主要通过两种方式利用大型语言模型的能力：单一大型语言模型API调用和链式大型语言模型调用。

1.1 用于批处理的单一大型语言模型API调用应用

这种应用模式的核心在于，使用相同的大型语言模型处理流程来处理多个数据项。例如，在对一批电影剧本进行分类时，开发者会设计一个分类提示模板，然后将所有剧本依次输入到大型语言模型中，利用其通用能力完成分类任务。这种模式的优势在于能够轻松扩展大型语言模型的使用范围，适用于诸如文本分类、情感分析等批量操作。

在实际应用中，上下文或指令可以通过提示模板进行动态调整，外部上下文也可以模块化，以避免冗长、硬编码的提示。同一批次中的所有数据都使用相同的提示模板，确保处理的一致性和效率。这种模式极大地简化了人工智能应用的开发流程，降低了技术门槛，使得更多开发者能够利用大型语言模型的能力。

1.2 用于批处理的链式大型语言模型应用

随着应用需求的复杂化，单一大型语言模型API调用逐渐无法满足需求，链式大型语言模型应用应运而生。在这种模式中，一个大型语言模型调用的输出会作为另一个大型语言模型调用的输入，形成一个处理链条。

以文本分类应用为例，第一个大型语言模型调用可能负责将文本初步分类为几个大类，第二个调用则在大类的基础上进行更细致的子分类。这种模式展示了如何将逻辑拆分为可重用、模块化的步骤，提高了应用的灵活性和可扩展性。通过链式调用，开发者可以构建更复杂的处理流程，实现单一模型难以完成的任务。

聊天式大型语言模型应用

聊天式大型语言模型应用是生成式人工智能向更自然、更交互方向发展的关键一步。它使人工智能系统从僵化的问答系统演进为今天的对话式人工智能，极大地提升了用户体验。

2.1 无状态的单一大型语言模型API调用响应

这是聊天式应用的最基础形式，每个响应都仅通过一次大型语言模型调用生成。这种模式是无状态的，意味着系统不保留对话历史，每次调用都是独立的。用户的查询会被嵌入到所选大型语言模型的固定提示中，模型根据该提示生成响应。

例如，当用户问“日本的首都是什么”时，系统会将这个问题嵌入到预设的提示模板中，调用大型语言模型得到答案“东京”。但如果用户接着问“这个国家还有其他什么城市”，系统无法关联到上一个问题，也就无法给出相关的日本城市列表。这种模式虽然简单，但无法提供连贯的对话体验。

2.2 具有上下文历史记忆的聊天机器人

随着大型语言模型上下文窗口的扩大，开发者开始将对话历史添加到提示中，以增强对话记忆。这种模式虽然从技术上讲仍然是无状态的——聊天历史需要手动拼接到每个提示中，但它通过将历史记录传递给每个API调用来模拟对话的连续性，每次查询仍然只进行一次大型语言模型调用。

例如，在使用Ollama运行Gemma:7b模型时，当用户先问“日本的首都是什么”，得到答案“东京”后，再问“这个国家还有其他什么城市”，系统能够利用之前的对话历史，正确理解“这个国家”指的是日本，并给出大阪、京都、名古屋等城市名称。这种模式极大地提升了对话的连贯性和自然度，为现代聊天机器人奠定了基础。

2.3 检索增强生成（RAG）聊天机器人

检索增强生成聊天机器人是聊天式应用的一次重要升级，它结合了嵌入技术和向量搜索，使系统能够生成比单纯依赖大型语言模型预训练知识更准确、更具上下文感知的响应。

在RAG架构中，原始文档（文本或图像）会被转换为语义丰富的嵌入向量，这些向量被索引到向量数据库中，以便进行快速的相似性搜索。当用户提出查询时，系统会先从向量数据库中检索相关的文档片段，然后将这些片段作为上下文提供给大型语言模型，辅助其生成答案。这种架构的优势在于能够将答案基于已知数据源，有效减少大型语言模型的“幻觉”问题。

文档分块是RAG系统中的一个关键步骤，它能提高搜索的粒度和检索准确性。分块越合理，答案的准确性就越高。同时，嵌入函数的质量也至关重要，嵌入向量对语义的编码能力越强，答案的准确性也就越高。RAG聊天机器人在企业场景中得到了广泛应用，例如作为企业人力资源聊天机器人，能够基于公司内部文档为员工提供准确的信息查询服务。

2.4 大型语言模型+结构化工具或函数调用

大型语言模型与工具调用的结合，代表了聊天式应用向更具实用性方向的发展。这种模式使大型语言模型能够生成行动，而不仅仅是文本。其工作流程通常包括三个步骤：首先，大型语言模型预测需要使用的工具；然后，执行该工具；最后，大型语言模型解释工具的结果。

在这个过程中，大型语言模型会自主决定何时以及如何调用外部工具，并预测提供给工具函数的参数。工具的结果会成为后续推理的上下文，这种设置在一定程度上使大型语言模型具备了智能体的特征。如果“预测正确工具→使用工具→观察结果→使用下一个工具/生成响应”的循环能够递归进行，就形成了智能体人工智能。因此，大型语言模型+工具调用有时也被称为单一智能体。

这种模式极大地扩展了大型语言模型的能力边界，使其能够完成诸如数据分析、网页查询、文件操作等原本无法直接完成的任务，为更复杂的应用场景打开了大门。

智能体人工智能应用

智能体人工智能应用代表了生成式人工智能发展的最新阶段，它使系统从单纯的文本生成走向了真正的行动执行。在这一阶段，大型语言模型只是更广泛架构的一部分，该架构还包括工具、内存和决策机制。

3.0 大型语言模型推理能力的演进

大型语言模型推理能力的发展为智能体的出现奠定了基础。这一演进过程主要包括提示工程的兴起、两种关键的提示工程方法（CoT和ReAct）以及大型推理模型的出现。

提示工程的发展始于基本的输入输出提示，随着大型语言模型上下文窗口的扩大，输入输出提示演变为少样本提示，以获得更好的结果。推理提示——思维链（CoT）和ReAct提示——在少样本框架的基础上，通过向大型语言模型概述“思考步骤”，进一步提升了模型的推理能力。

思维链提示通过示例向大型语言模型展示逐步思考的过程，引导模型进行分步推理；ReAct提示则将推理与行动结合起来，使模型能够在思考过程中决定何时以及如何采取行动。这些提示方法的核心在于通过示例教会大型语言模型分步思考和推理，这种“诱使”大型语言模型“推理”的能力在构建智能体时发挥了重要作用。

大型推理模型（LRMs）是另一个重要发展方向。与传统大型语言模型不同，大型推理模型在生成输出之前会进行内部规划。传统大型语言模型的流程是“输入→大型语言模型→输出语句→输入→……→大型语言模型→输出”，而大型推理模型则是“输入→大型推理模型→保留规划步骤→最终输出语句”。

大型推理模型在生成文本时，会像人类一样“先思考再行动”，因此在推理过程中需要更多的“测试时计算资源”。例如，OpenAI的o1和DeepSeek R1都是这类模型的代表。在实际应用中，如果任务需要深度的多步骤逻辑、规划或战略协调，推理原生的大型语言模型会表现更出色；如果预算和速度更为重要，通过良好的提示工程，通用大型语言模型也可以通过链式调用近似实现推理功能，尽管它缺乏内部的“思考者”。

3.1 什么是智能体？

智能体是在大型语言模型基础上发展而来的更高级实体。如果说大型语言模型的核心是生成文本，那么智能体则不仅能生成文本，还能做出决策（规划）和执行行动，大型语言模型是智能体的核心组件。

具体来说：

聊天机器人 = 大型语言模型 + 记忆
RAG聊天机器人 = 大型语言模型 + 记忆 + 矢量化数据（源文档）
工具型大型语言模型 = 大型语言模型（大脑） + 函数调用（双手）

正如Aishwarya Naresh在其Substack文章中所指出的：“智能体 = 大型语言模型 + 工具 + 记忆 + 规划（下一步行动）”，可以说智能体是在大型语言模型周围构建的工程化封装。

3.2 单一智能体的架构

单一智能体的架构相对复杂，它需要具备接收输入、进行规划、调用工具、存储记忆和生成输出的完整能力。一个简化的单一智能体架构工作流程如下：

接收用户查询和提示模板作为输入；
使用规划模块（如任务分解、思维链等）指导执行过程，将用户输入、记忆和规划结合成最终提示；
将提示发送给大型语言模型，由其决定采取何种行动；
大型语言模型选择工具并基于推理执行行动；
工具的响应被观察并反馈给大型语言模型；
与短期和长期记忆进行交互，以保持上下文感知；
在经过推理、工具使用和记忆查询的递归循环后，生成最终答案。

这种架构使单一智能体能够自主规划步骤、调用工具来完成任务，例如自动生成报告的AI报告生成器，它可以连接各种工具、提示和记忆，完成从数据收集到报告撰写的全流程。

3.3 大型语言模型RAG与智能体RAG

智能体RAG是在传统大型语言模型RAG基础上的升级，两者的核心区别在于处理流程的灵活性和自主性。

传统的大型语言模型RAG通常只进行一次大型语言模型API调用，执行固定的流程：嵌入→检索→响应。大型语言模型仅使用检索到的上下文生成一次答案，没有反馈循环，也不具备决策能力，完全依赖于提示设计。

而智能体RAG则不是一次性检索（即不只是一次大型语言模型API调用）。智能体在检索后会反思结果，如果有必要会重新检索；如果置信度低，还可以修改或重新执行步骤。这种动态调整能力使智能体RAG能够处理更复杂的查询，提供更准确的结果。

3.4 什么是多智能体系统？

多智能体系统是由多个智能体组成的协作网络，其中每个智能体都有各自的职责，能够并行运作。多智能体系统主要有两种实现方式：

多智能体协作：智能体之间相互依赖，共享任务和知识，以解决复杂或顺序性问题。例如，在一个产品设计系统中，可能有专门负责市场分析的智能体、负责结构设计的智能体和负责材料选择的智能体，它们相互协作完成整个设计过程。
多智能体编排：一个或多个编排智能体负责协调智能体选择、任务分配和结果聚合，遵循既定协议。例如，在一个客户服务系统中，可能有一个主智能体负责接收客户请求，然后根据请求类型分配给不同的专业智能体（如技术支持智能体、账单查询智能体等），最后汇总结果反馈给客户。

通常，多智能体编排比多智能体协作更容易控制，许多系统也会采用两种方式结合的混合策略。智能体之间通过共享内存和诸如A2A等协议进行跨智能体通信。

3.5 MCP和A2A：这些协议意味着什么？

在多智能体系统中，协议起着至关重要的作用，它们确保了智能体之间以及智能体与外部系统之间的有效通信。MCP和A2A是两种重要的协议：

MCP（模型上下文协议）：由Anthropic推出，是一种标准化协议，用于向大型语言模型提供结构化的实时上下文（如工具和数据）。它允许一个兼容MCP的人工智能应用使用多个MCP服务器，也支持多个兼容MCP的人工智能应用使用同一个MCP服务器，极大地提高了系统的灵活性和互操作性。
A2A（智能体到智能体协议）：这是一种开放协议，为智能体之间的协作提供了标准方式。A2A和MCP可以结合使用，构建更强大、更灵活的多智能体系统。

这些协议的出现为多智能体系统的发展提供了技术基础，使得不同智能体和系统能够无缝协作，共同完成复杂任务。