在人工智能应用飞速发展的今天,我们逐渐意识到当前AI应用的一个普遍短板:它们善于处理即时、简单的任务,却在需要长期规划和多步骤执行的复杂工作方面仍难以突破。传统AI执行力高效,可一旦工作链条变长、环节增多,就容易失去整体方向。

www.langchain.com
深度智能体(Deep Agents)正在改变这一现状——这也是Claude Code、Manus、Deep Research等智能体突然强大的背后推手。**如果说传统的 AI 应用是短跑选手,擅长快速响应简单指令;那新一代的深度智能体则更像马拉松运动员,能够规划路线、调整节奏、持续前进,最终完成复杂任务。**这种差异为AI的落地带来的不是量变,而是质变。它并不追求打造更强大的AI模型,而是为现有模型设计了一套更高效的工作系统,使得AI应用能够自主的理解复杂目标、制定执行计划并持续推进任务。
Deep Agents是什么?
简单来说,Deep Agents是一套让AI系统具备“深度工作”能力的框架。它的核心创新不在于算法突破,而在于对AI工作方式的重新设计。

我们可以这样理解它的定位——传统AI是“应答式”工具:你提出具体问题,它给出直接回答。比如“总结这篇文章”或“写一段代码注释”,它能很好完成。Deep Agents是“目标导向”的协作伙伴:你可以给它一个开放式目标,比如“研究新能源汽车的市场趋势并撰写分析报告”,它会自己规划研究步骤、搜集资料、分析数据并形成完整报告。
这种转变能让AI处理以前难以完成的任务类型,如深度市场研究、复杂软件项目开发、长期内容创作等需要持续专注和多步骤协作的工作。
总体来说,Deep Agents具备以下三大关键特点:
一是核心机制。Deep Agents通过规划工具、子智能体、文件系统和详细提示四大支柱协同工作,突破了传统智能体的局限。二是能力跃迁:从简单指令执行到复杂目标规划,从短期反应到长期思考,从有限记忆到结构化存储——这是质的飞跃。三是开源赋能:LangChain 的 deepagents 框架让开发者能轻松构建自己的深度智能体,推动这一技术走向普及。
READ MORE…
LangChain 是 2022 年由 Harrison Chase 创立的 AI 创业公司,它开发了一套帮助程序员快速搭建 AI 应用的开源框架。想象它是“AI 应用的乐高积木”—— 提供了现成的代码模块,让开发者不用从零开始,就能组装出各种智能应用。Deep Agents 则是基于 LangChain 构建的“开箱即用”的工具套件框架。目前,LangChain 团队在最近的 B 轮融资中筹集了 1.25 亿美元,用于建立智能体工程平台,公司估值达到 12.5 亿美元,用户涵盖 35% 的 500 强企业。
四大核心
Deep Agents的能力建立在一套精心设计的系统架构上,主要包括四大核心支柱和九项关键能力。四大支柱是深度智能的基础设计,包含规划工具、文件系统、子智能体以及详细系统提示。
核心一:规划工具,结构化思考的基础
深度智能体的第一个关键组件是规划工具。有趣的是,这个工具在某些实现中甚至是一个“无操作”(no-op)工具。例如,Claude Code 使用的 Todo List 工具实际上并不执行任何实质性操作,它只是为模型提供了一个结构化思考的机会。
这种看似简单的设计却有着深远影响:它让智能体能够在执行具体任务前先进行全局规划,将复杂目标分解为可管理的步骤。更重要的是,这些规划内容会保留在模型的上下文中,成为后续执行的指导框架。
就像一位优秀的项目经理会在动手前先制定详细计划一样,深度智能体通过规划工具获得了“思考再行动”的能力,这是应对复杂任务的第一步。
核心二:子智能体,专注与协作的平衡
第二个关键组件是子智能体系统。深度智能体能够生成多个专注于特定任务的子智能体,每个子智能体都有自己的上下文窗口和专业领域。
这种设计带来了三大优势:一是上下文隔离,子智能体的操作不会污染主智能体的上下文,反之亦然。二是专业分工,每个子智能体可以配备专门的系统提示和工具,更好地处理特定任务。三是并行处理,多个子智能体可以同时处理不同方面的问题,提高整体效率。
这就像一个高效团队,每个成员都有自己的专长和职责,共同协作完成复杂项目。在研究任务中,主智能体可以同时派出多个子智能体进行不同方向的信息检索,然后综合各自的发现形成完整报告。
核心三:文件系统,减轻认知负担的外部记忆
随着任务复杂度增加,智能体需要处理的信息量也呈指数级增长。深度智能体通过文件系统解决了这一挑战,将部分上下文信息卸载到“外部存储”中。
这种机制不仅减轻了模型的认知负担,还提供了更结构化的信息管理方式。智能体可以将中间结果写入文件,需要时再读取,避免信息丢失;文件系统成为主智能体和子智能体之间的共享工作空间,促进协作;长文本内容可以存储在文件中,避免占用宝贵的上下文窗口。
这类似于人类使用笔记本记录思考过程,既减轻了记忆负担,又提供了结构化整理信息的方式。Manus 就是一个充分利用文件系统作为“记忆”的典型例子,这也是它能够处理复杂任务的关键因素之一。
核心四:详细系统提示,指导智能体的行为准则
最后一个组件看似最基础,却常常被低估:详细的系统提示。与普遍认为“模型越强大,提示可以越简短”的观点相反,最优秀的深度智能体往往拥有数百甚至上千行的系统提示。
Claude Code 的重建系统提示就是一个典型例子,它包含了大量关于工具使用、行为规范和特定情境处理的详细指导。这些“冗长”的提示实际上是深度智能体的“操作手册”,确保它能够正确理解和执行复杂任务。
就像一本详尽的操作指南能帮助新手快速上手复杂设备一样,详细的系统提示为智能体提供了清晰的行为准则,使其能够更加一致、可靠地完成任务。
九大能力,形成组合技
LangChain团队将Deep Agents定位为“智能体工具套件”(Agent Harness),这一特性体现在九项核心能力上。这九项能力单看每一项都不新鲜,但整合在一起,就能生成一个经过深思熟虑的、会自我优化的、接近生产就绪的智能体系统。

能力一:文件系统
Deep Agents 参照 Claude Code 把文件操作当一等公民,提供了六个工具:
- ls:列目录。不只是文件名,还有大小、修改时间这些元数据。
- read_file:读文件。带行号,还支持 offset 和 limit,处理几万行的日志文件也不怕。
- write_file:写新文件。一次写入完整内容。
- edit_file:改现有文件。精确字符串替换,支持全局替换模式。
- glob:模式匹配找文件。比如 **/*.py 找所有 Python 文件。
- grep:搜文件内容。有多种输出模式(只显示文件名/带上下文/计数)。
这六个工具组合起来,智能体就有了接近 Unix 开发者的文件操作能力。
能力二:大结果驱逐
当智能体执行 grep “error” *.log 等操作时,可能返回海量数据(如5万行日志)。若直接将其载入上下文,将导致Token预算瞬间超限。
Deep Agents 采用以下策略应对:首先是通过实时监测工具返回结果的规模(默认阈值为20,000 tokens);当结果超过阈值时,自动将其持久化至文件系统,并在消息历史中仅保留简要的文件引用信息。智能体可根据实际需求访问存储的文件内容
该机制有效避免了长时对话因单次大规模查询结果而导致的上下文溢出问题,保障了系统的持续稳定运行。
能力三:可插拔后端
这是 Deep Agents 相比 Claude Code 的一个重要创新。它把文件系统抽象成了协议,不同路径可以用不同的存储策略,包括StateBackend(状态后端)、FilesystemBackend(文件系统后端)、StoreBackend(存储后端)和CompositeBackend(混合后端)。
能力四:子智能体
支持主智能体动态创建临时子智能体(Subagent)以处理复杂子任务,该机制具有三大核心优势:一是上下文隔离,子智能体的执行过程独立于主智能体上下文,有效提升Token使用效率,无论子任务复杂度如何,最终仅向主智能体返回精简的执行报告;二是支持多个子智能体并发执行,提升整体处理效率;三是功能专业化,可为不同子智能体配置专用工具与参数以实现职能分工。
其工作机制为:主智能体通过 task 工具发起调用,系统实例化具有独立上下文的全新子智能体,子智能体自主完成任务后生成并返回最终报告,整个过程采用无状态设计,不支持多轮交互。Deep Agents 提供具备文件系统操作能力的通用子智能体,开发者亦可根据需求自定义专用子智能体,如代码审查专家或网络研究助手等。
能力五:对话历史摘要
针对长对话中Token累积超限的问题,采用LangChain的SummarizationMiddleware机制进行优化:当上下文Token数量达到170,000的触发阈值时,系统自动保留最近6条消息的完整内容,同时对更早的历史消息进行智能摘要压缩,摘要内容以特殊系统消息的形式对智能体透明呈现。
能力六:悬空工具调用修复
针对工具调用中断这一边缘但真实的场景问题提供了完善的容错机制:当智能体发起工具调用请求后,若因用户取消、系统异常或网络中断等原因导致调用未能完成,消息历史中将出现包含工具调用意图的AIMessage但缺失相应执行结果的ToolMessage,从而形成不完整的消息链。为避免此类历史记录缺陷导致智能体执行混乱,系统会主动检测未返回结果的tool_calls,自动生成标注"调用已取消"的合成ToolMessage补全消息链,并在智能体执行前完成历史记录修复。
能力七:待办事项跟踪
通过集成LangChain的TodoListMiddleware机制提供write_todos工具,使智能体能够维护结构化的任务管理体系。该工具支持跟踪多个任务节点及其执行状态(pending、in_progress、completed),并将任务信息持久化存储于智能体状态中,从而帮助智能体有效组织和推进复杂的多步骤工作流程。
这一机制尤其适用于需要长期运行、涉及多阶段协调的复杂任务场景,通过任务列表的动态维护与状态追踪,确保智能体在执行过程中始终保持对整体任务进度的清晰掌控,避免因任务环节繁多而导致的执行混乱或遗漏问题。
能力八:安全门
这是一个可编程的审批机制。利用 LangChain HumanInTheLoopMiddleware在关键操作执行前暂停智能体,让人类介入决策。其工作原理为:当智能体准备调用工具时,系统首先检查该操作是否需要人工审批,若需要则暂停执行并等待人类决策者进行批准、修改调用参数或拒绝操作并提供反馈意见,智能体随后根据人类决策结果继续执行或调整执行策略。
该机制的核心特性在于审批规则的完全可配置性:开发者可在代码层面自主定义哪些工具需要审批,既支持基于工具类型的静态规则配置,也支持根据执行上下文的动态判断逻辑,甚至可针对特定文件路径或命令内容实施细粒度的审批控制,从而在保障智能体执行灵活性的同时有效防范高风险操作的自动化执行风险。
能力九:提示词缓存
该机制针对多轮对话场景中重复出现的提示内容进行缓存处理,尤其对于包含5000+ tokens的长系统提示具有显著优化效果,这类内容在未启用缓存时需要在每轮对话中重新处理,导致大量计算资源浪费。启用缓存后,系统可直接复用已处理的提示内容,实现约10倍的响应速度提升和成本降低。该功能仅适用于Anthropic模型,当使用其他模型提供商时系统将自动跳过此中间件,确保框架的兼容性与灵活性。
在智能体框架生态中,Deep Agents 与 Anthropic 的 Claude Agent SDK 形成了兼具竞争与互补的有趣格局。尤为值得关注的是,Deep Agents 已发布其开箱即用的命令行工具 deepagents-cli,它让普通用户能在终端中直接调用深度智能体处理任务,其定位与体验模式直接对标 Claude Code 应用,为开发者与研究者提供了一个可本地部署、透明可控的替代选择。
Deep Agents 框架(含其CLI工具)的核心价值在于,它将 Claude Code 等先进智能体系统中已验证的设计思路“拆解、重组并开源”,大幅降低了构建与使用深度智能体的门槛。其开源、可深度定制、可无缝集成LangChain庞大工具生态的特性,为那些需要特定工具集成、永久记忆功能或高度定制化工作流的项目,提供了灵活而强大的选择。
这些领域有望获得加持
如果你是一名研究人员——在研究领域,OpenAI的Deep Research与LangChain的Open Deep Research展示了深度智能体能够根据用户问题自动规划研究路径、分解复杂问题并派遣专门子智能体进行探索、综合多源信息形成结构化报告,并通过自我评估机制对研究质量进行持续优化。其中LangChain的Open Deep Research在DeepResearch-Leaderboard上位居开源深度研究智能体首位,证明了该架构在处理高复杂度研究任务时的卓越性能。
如果你是一名程序员——在编程领域,Claude Code作为代表性应用,不仅实现了代码补全功能,更能够理解复杂项目结构并进行全局规划、生成完整功能模块并执行自测、在长周期开发过程中保持代码一致性,并通过子智能体处理特定编程任务,其应用价值已延伸至通用任务处理场景。
如果你是一名内容创作者——在内容创作领域,深度智能体能够规划复杂内容结构并分阶段执行、收集整合多源素材形成高质量结构化成果,并根据反馈进行自我调整优化,成为协助完成从市场调研到内容创作全流程工作的有力工具。
如果你对构建自己的深度智能体感兴趣,可以参考以下两个视频来了解 LangChain deepagents 类库的实际使用:

Deep Agents:超越浅层循环,实现复杂任务:
*https://www.bilibili.com/video/BV1ButrzvErJ/*Deep Agents 工程实践:打造你的深度研究助手:
https://www.bilibili.com/video/BV1ZFYozsEat/
**Deep Agents代表着AI应用发展的一个重要方向:从提供即时答案的对话工具,进化为能够理解复杂目标、规划执行路径、管理长期任务的协作系统。**虽然这项技术仍在快速演进中,但它已经为我们展示了AI在复杂工作中可以扮演的新角色。
对于开发者而言,Deep Agents降低了构建深度智能体应用的门槛:无论是希望提高研究效率的学者、需要辅助开发的程序员,还是管理复杂项目的专业人士,对于这些终端用户而言,它提供了更加强大和可靠的AI协作体验。

如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

2万+

被折叠的 条评论
为什么被折叠?



