生成式 AI：Chat 与 Agent 的发展博弈

最新推荐文章于 2025-04-20 10:45:07 发布

原创

最新推荐文章于 2025-04-20 10:45:07 发布 · 2.6k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

生成式 AI 的发展方向，是 Chat 还是 Agent？

随着生成式AI技术的不断进步，关于其未来发展方向的讨论也愈发激烈。究竟生成式AI的未来是在对话系统（Chat）中展现智慧，还是在自主代理（Agent）中体现能力？这一问题引发了广泛的讨论和探索。你怎么看待生成式AI的未来发展方向？

什么是AI Agent (LLM Agent)

AI Agent 的定义

AI Agent是一种超越简单文本生成的人工智能系统。它使用大型语言模型（LLM）作为其核心计算引擎，使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之，Agent是一个具有复杂推理能力、记忆和执行任务手段的系统。

AI Agent 的主要组成部分：

在LLM赋能的自主agent系统中(LLM Agent)，LLM充当agent大脑的角色，并与若干关键组件协作。

规划（planning）

• 子目标分解：agent将大任务拆分为更小的可管理的子目标，使得可以有效处理复杂任务。
• 反思与完善：agent对历史动作可以自我批评和自我反思，从错误中学习并在后续步骤里完善，从而改善最终结果的质量。

记忆（Memory）

短期记忆：上下文学习即是利用模型的短期记忆学习。
长期记忆：为agent提供保留和召回长期信息的能力，通常利用外部向量存储和检索实现。

工具使用（tool use）

对模型权重丢失的信息，agent学习调用外部API获取额外信息，包括当前信息、代码执行能力、专有信息源的访问等等。

行动（Action）

行动模块是智能体实际执行决定或响应的部分。面对不同的任务，智能体系统有一个完整的行动策略集，在决策时可以选择需要执行的行动，比如广为熟知的记忆检索、推理、学习、编程等。

AI Agent的意义

人机协同模式

基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理，还将改变人机协同的模式，带来更为广泛的人机融合。生成式AI的智能革命演化至今，从人机协同呈现了三种模式：

（1）嵌入（embedding）模式。用户通过与AI进行语言交流，使用提示词来设定目标，然后AI协助用户完成这些目标，比如普通用户向生成式AI输入提示词创作小说、音乐作品、3D内容等。在这种模式下，AI的作用相当于执行命令的工具，而人类担任决策者和指挥者的角色。

（2）副驾驶（Copilot）模式。在这种模式下，人类和AI更像是合作伙伴，共同参与到工作流程中，各自发挥作用。AI介入到工作流程中，从提供建议到协助完成流程的各个阶段。例如，在软件开发中，AI可以为程序员编写代码、检测错误或优化性能提供帮助。人类和AI在这个过程中共同工作，互补彼此的能力。AI更像是一个知识丰富的合作伙伴，而非单纯的工具。

实际上，2021年微软在GitHub首次引入了Copilot（副驾驶）的概念。GitHub Copilot是一个辅助开发人员编写代码的AI服务。2023年5月，微软在大模型的加持下，Copilot迎来全面升级，推出Dynamics 365 Copilot、Microsoft 365 Copilot和Power Platform Copilot等，并提出“Copilot是一种全新的工作方式”的理念。工作如此，生活也同样需要“Copilot”，“出门问问”创始人李志飞认为大模型的最好工作，是做人类的“Copilot”。

（3）智能体（Agent）模式。人类设定目标和提供必要的资源（例如计算能力），然后AI独立地承担大部分工作，最后人类监督进程以及评估最终结果。这种模式下，AI充分体现了智能体的互动性、自主性和适应性特征，接近于独立的行动者，而人类则更多地扮演监督者和评估者的角色。

人类与AI协同的三种方式

从前文对智能体记忆、规划、行动和使用工具四个主要模块的功能分析来看，智能体模式相较于嵌入模式、副驾驶模式无疑更为高效，或将成为未来人机协同的主要模式。

基于Agent的人机协同模式，每个普通个体都有可能成为超级个体。超级个体是拥有自己的AI团队与自动化任务工作流，基于Agent与其他超级个体建立更为智能化与自动化的协作关系。现在业内不乏一人公司、超级个体的积极探索。