AI智能体全面爆发：一文吃透多Agent技术发展与进化

最新推荐文章于 2025-11-25 12:11:01 发布

原创最新推荐文章于 2025-11-25 12:11:01 发布 · 935 阅读

CC 4.0 BY-SA版权

文章标签：

在本文中，我们将深入探讨AI Agent的理论支撑以及其背后的第一性原理，回顾和分析第一性原理的发展轨迹，现阶段AI Agent所具备的能力，并探讨其在各个领域中的应用。接着，我们会展望AI Agent未来的发展方向，特别是在多Agent协作中的潜力和挑战。最后，我们将探讨Agent的未来技术发展及其广泛应用前景，为读者提供一个全面且深入的视角来理解和预测AI Agent的未来。

AI时代，运维程序员护城河是什么

01

人工智能与第一性原理

大家好，今天我想和大家讨论一下人工智能中的第一性原理，以及它在我们日常技术中的应用。

首先，什么是第一性原理？简单来说，第一性原理就是从最基本的事实或假设出发，通过逻辑推理得出结论。在人工智能领域，第一性原理非常重要，因为它帮助我们理解和模拟人类的认知和行为。

第一性原理的重要性

掌握第一性原理有多个原因。首先，它是我们后续开发和协作的基础。无论是引擎的协作还是多种技术的协作，都是基于第一性原

图像识别的进化

图像识别技术的进化可以很好地体现第一性原理的重要性。图像识别的重大突破之一来源于1981年诺贝尔医学奖的研究。这个研究分析了人类视觉神经的传导机制，发现我们的视觉皮层是分层级的。

当图像从我们的眼睛进入大脑时，信息处理是分层级进行的：

第一级：模糊的形状和颜色。
第二级：具体的特征。
第三级：具体的识别。

有了这个理论依据后，我们对图像识别的神经算法进行了改进。

从浅层到深度学习

在早期，我们的图像识别算法通常只有三层结构：输入层、中间的隐层和输出层。然而这种结构的识别准确率有限。通过借鉴视觉皮层的分层机制，我们引入了多层结构的神经网络，即深度学习。

深度学习神经网络通过增加多层隐层，大大提高了图像识别的准确率。这一进化充分展示了第一性原理在技术发展中的关键作用。

02

基于第一性原理的发展轨迹

在探讨Agent的协作时，实际上是在讨论一种人的活动的组织方式。为什么这么说呢？我们可以通过一个例子来更好地理解这一点。

第一阶段：个人手艺人

最开始可能是个人手艺人，他们独自完成所有工作。这种单打独斗的方式虽然有其独特性，但效率较低，每个产品可能都不一样。

第二阶段：小作坊或工作室

接下来是小作坊或工作室的阶段。这个阶段中，有了一群人共同协作，开始出现分工。分工是进入现代工业的起步标志，每个人在各自的专业领域中完成特定任务。同时，小作坊会有专门的人进行管理。

第三阶段：流水线

第三个阶段是流水线的出现。流水线的概念是从小作坊转变为工厂的标志，要求大批量的生产。流水线是20世纪初工业革命后的重要发展，极大地提高了生产效率。

第四阶段：小型公司的协作

第四个阶段是小型公司的协作。这可以看作是现代工厂和企业制造部门的雏形。在这个阶段，不仅生产质量和产量都得到了成倍的提升，企业的组织和管理也更加完善。

第五阶段：现代企业的综合协作

第五个阶段是现代企业的综合协作。如今，许多小型公司通过整合成为一个部门或事业群。在这个阶段，企业不仅专注于生产，还包括前期调研、市场营销和零售布局等多方面的工作。通过这些综合性的协作，企业能够更有效地推广和销售产品。

03

Agent 协作技术发展轨迹

第一阶段：手艺人

手艺人代表人的脑力执行特点，其门槛较低，每个人都可以做这个事情，但要做到最好的人却寥寥无几。Agent技术代表的是算法、算力和模态理解。当前的大模型技术就是在这一阶段表现出来的，当算法突破瓶颈后，将显现出稀缺性，超过其他模型。Agent 技术一般用于聊天、总结和翻译，可以直接输出知识。

第二阶段：工作室

工作室的特点是有一个灵魂人物（例如小老板）负责产品立项和设计决策，并将具体任务分发给关键的手艺人。工作室产品通常是定制化的，结合用户内容进行定制。关键技术包括意图模型和工具使用。业界例如豆包元宝、频道问问等AI产品都在进行特定内容的上下文处理，进行总结、问答和聊天等娱乐化功能。

第三阶段：流水线

流水线的特点是批量化执行和拉线管理。在工厂里，每个流水线都有线管理人员监督工作进度，确保生产环节顺利进行。对应的Agent 技术包括任务编排、管理和AI-Devops。举例来说，任务分发后可通过多种方式执行并回收结果。产品示例包括豆包的Coze平台和Dify平台。

第四阶段：小型组织

小型组织类似现代工厂的制造部门，关键技术是规划决策算法和自动化技术。任务在这一阶段可能是模糊的，需要规划和决策算法来优化产品。自动化技术结合MCP提高效率。例如，规划决策算法用于分析问题、数据和工具选择，自动化技术使任务执行更快。

第五阶段：现代企业组织

现代企业组织有多个部门协助，关键在于持续稳定的角色驱动。当前所有上下文基于用户输入启动，但组织需持续运转，实时调整数据输入和反馈。关键技术包括数据共享和自我决策驱动，通过接入更多数据实现自我迭代。所以现在的环境感知在Agent上的应用还比较少，Agent协作的未来形态应该是持续运营状态，基于持续数据输入可以对自身进行迭代。

例如，PM和DS同学作为两个Agent每天交流信息，他们可能共同开了个会议，目标更新了。当这个目标需要两个角色共同完成时，Agent集群自我编排两个Agent整合成新的高维Agent来实现目标。（类似项目组织的概念）

企业组织通过OKR驱动目标划分，依据部门定位编排目标。当外面的产品或技术出现变化时，企业会自己更新组织来适应。对于Agent协作来说，到达企业级别的Agent会自行通过决策基于已有基础创建新的Agent来适应变化，然后持续的外部数据输入后能更新迭代进行编排。

总结各阶段的技术演进展示了从手艺人到现代企业组织的逐步发展，每个阶段都有相应的技术和应用场景。应用的选择根据使用场景和用户规模判断，不一定每个应用都要走到最后阶段。

04

Agent能力概述

Agent的能力主要可以分为以下几个部分：

算力；
知识记忆；
预测功能；
动作执行。

知识记忆 (Memory and Knowledge)

Agent的大脑负责记忆和知识的获取。知识记忆通常通过微调训练或者特定方案（如RAG的方案）来实现。这些方法使Agent能够在不同情况下调用相关知识。

预测功能

对于预测任务，Agent可以将图像、多模态数据等转换成文本形式，然后进行预测。这种转换使得Agent在处理不同类型的数据时更加灵活和高效。

动作执行 (Action)

动作执行是通过工具能力来实现的，例如API调用、SQL调用以及机械手的操作等。这些调用都属于Agent的动作执行部分。具体来说，工具能力主要分为以下几种：

API调用
SQL调用
机械手操作
…

工具能力

在工具能力方面，举一个例子，主要是通过 ReAct 的方案来实现API调用和搜索。这些都属于工具能力的一部分。

MCP (万能插口)
- MCP的概念可以理解为一个万能的插口。目前，所有的工具调用都可能各自有各自的沙箱板，而MCP则作为一个通用接口，使得所有工具都能插上去，从而提高了兼容性和灵活性。
RAG (知识补充)
- RAG的概念是一个知识补充机制，用于增强Agent的知识库。

总结当前的Agent通过整合计算能力、知识记忆、预测功能和动作执行等多个方面，能够高效地与外部用户进行交互，并完成复杂的任务。这些能力的实现依赖于各种工具和接口的使用，例如API调用、SQL调用和机械手操作等。通过MCP和Read等机制，Agent能够更加灵活地调用和补充知识，从而提升整体性能。

05

未来的思考

这些想法都是我个人的见解，没有参考任何资料，可能不完全正确，大家可以一起讨论。

当前的协作方式

**1、层级结构：**现代的协作方式通常基于层级结构。用户输入信息后，系统（Agent）会规划执行的工具或任务，然后由各个子系统（agents）继续执行。这一过程是层级化的。

网状结构的概念

**2、网络状的社会组织：**未来的发展可能更倾向于网状结构，即各个节点（如个人、公司、社区等）可以互相通信。例如，当我提出一个问题时，系统会通过多节点传导，最终得到知识反馈。

进化点

3、上游与下游关系的变化：

传统的系统（Agent）通常通过人为分配任务。
未来的系统可能会实现更自主的上游与下游关系。例如，当我提出一个问题时，如果系统发生了变化，它会自动通知相关人员进行下一步操作。

4、信息共享网络：

为了实现上述网状结构，信息共享是必不可少的。
举个例子：当我问AI PM（项目经理）某个问题，如软件版本发布情况、覆盖率等，AI PM可以帮我查到部分信息，但需要进一步的信息时，系统会自动查询其他相关节点（如AI DS）（数据科学）并整合反馈，而不需要我重复输入问题。

5、原突变与自我进化：

系统应具备自我进化和自我编排的能力。例如，当系统发现某个问题没有得到有效回答时，它可以自动创建新的子系统（agents）来解决问题。
举个例子：如果我问“QQ在微博上的热搜是什么？”而系统无法回答，它可以自动生成用于查询微博热搜的代码，并创建相应的agent。第二天当我再问同样的问题时，系统已经具备了解答的能力。

结论

通过以上几点，我们可以看到未来系统的发展方向可能更加自主、网络化和智能化。信息共享和自我进化将是关键因素，使得系统能够更高效地处理复杂问题。

06

未来技术的发展与应用

未来技术的发展与应用将会有几个重要的方向，包括大模型的专业化、指令库的应用、模型多模态能力的提升以及更少的人类指令输入等方面。

1. 大模型与基础设施的专业化

随着技术的发展，大模型和基础设施会变得更加专业化。过去，软件工程主要集中在代码方面，但未来会更多地涉及到指令库的概念。指令库可以包含一些“魔法指令”，用户不需要自己去查找或编写指令，只需调用指令库中的现有指令即可。例如，用户想要创建一个特定的引擎，指令库可以自动生成相应的指令并注入到系统中，从而简化了操作过程。

2. 模型的多模态能力

未来的模型将会整合更多的模态信息。例如，谷歌最新的视频生成技术可以同时生成语音和视频内容。未来可能会有更多的信息被生成，如视频中的物体坐标等。这种多模态的信息输入将使模型更加智能和全面。

3. 更少的人类指令输入（Less Prompt）

随着技术的进步，人类输入的指令会越来越少。例如，代码补全工具从最初的按回车补全下一行代码，到按Tab键补全整个文档的内容。这种趋势表明，未来用户输入的指令会更少，系统会根据少量的输入自动生成完整的内容。

基于代码补全的概念
- Cursor前的代码补全概念：
- - 功能：按下回车键后，自动补全下一行代码。
- Curosr 概念：
- - 功能：按下 Tab 键后，不仅全文补全，自动预测下一个要补全的代码位置，还会根据整个工程进行编程补全。
- - 优势：减少用户输入的内容。
应用于客户端应用的智能推荐**（思路）**
- 操作行为分析：
- - 通过 Less Prompt 的概念引导，我们可以减少用户的操作行为来执行指令。
- - 示例：简化用户操作，可能只需一步点击即可完成任务（类似补全操作路径的概念）

4. 商业应用中的数据共享

目前，AI在生成结果时，往往缺乏上下文数据的共享。例如，当用户提出多个问题时，AI需要记录这些问题并基于这些记录推荐相关问题和答案。未来，数据共享和整合将会更加重要，以便AI能够更好地理解用户的需求并生成相应的结果。

5. 更多数据（More Data）

未来的AI模型将会依赖更多的数据进行训练。例如，医疗领域是一个可能爆发的应用场景。医疗行业每年投入大量资金，而富人对延长寿命的需求使得这一领域有很大的发展潜力。具体应用如胃肠道胶囊摄像头，可以通过摄像头拍摄上千张图片，然后基于AI分析这些图片，检测消化道是否有息肉或其他问题。这样可以大大减少人工分析的时间和成本，提高诊断效率。

More Data 概念

定义：在模型中输入更多的数据，使其能够更好地学习和理解用户需求。
实现：增加数据量以提高模型的性能和准确性。

通过以下策略，我们可以显著提升用户体验：

减少用户指令：利用智能补全功能和历史数据推荐。
优化 AI 推荐：共享状态数据，提高问题生成的准确性。
增加数据量：输入更多数据以增强模型学习能力。

6. 技术爆发的非线性应用

技术的爆发往往是突变性的、非线性的。例如，1981年视觉皮层分层基础研究获得诺贝尔医学奖，但直到1990年图像识别技术在才开始爆发，自然语言大模型的概念应用也是如此。

引用个老图展示人工智能各领域的发展状态

图源网络

07

总结

未来技术的发展将会集中在大模型的专业化、多模态能力的提升、更少的人类指令输入、数据共享和更多的数据应用上。这些趋势将会推动各个领域的技术进步，特别是在医疗等高投入的领域，可能会有更多的突破和应用。

另外，不同的Agent协作技术阶段都有其存在的意义，并不是所有技术都必须演进到最后阶段。 这才构成了我们现在的社会活动。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述