告别微调！斯坦福提出Agentic上下文工程

最新推荐文章于 2025-11-25 12:11:01 发布

原创最新推荐文章于 2025-11-25 12:11:01 发布 · 968 阅读

CC 4.0 BY-SA版权

文章标签：

#人工智能 #chatgpt #prompt #开发语言 #langchain #ai #agent

想象一下，你正在教一个非常聪明的实习生完成一项复杂的工作。你有两种选择：一是给他一句非常精炼的指令，比如“把这份报告处理好”；二是给他一本详细的工作手册，里面记录了之前处理类似任务的成功经验、踩过的坑、具体的操作步骤和注意事项。哪一种方式更能让实习生高质量地完成任务？答案显然是后者。

当前的大型语言模型正面临类似的处境。我们通常通过微调模型参数来让它学习新知识，但这过程成本高昂、速度慢，且不够灵活。另一种更轻量、更灵活的方法是“上下文适应”，即不改变模型本身，而是通过优化输入给模型的“上下文”来提升其表现。这个上下文，就像是给模型的“工作指令”，可以包括系统提示、过去的记忆、事实证据等。

论文：Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
链接：https://www.arxiv.org/pdf/2510.04618

然而，现有的上下文优化方法存在明显短板。它们就像那个只给出一句精炼指令的导师，为了“简洁”而牺牲了“细节”和“深度”，导致模型在复杂的任务中表现不佳。这篇来自斯坦福大学和SambaNova Systems的研究论文，正是为了解决这一问题。它提出了一个名为ACE的创新框架，旨在将上下文从一个静态的“摘要”转变为一本动态演进、内容详尽的“战术手册”，从而让语言模型能够高效、低成本地自我改进。

问题诊断：现有方法的两个核心缺陷

论文首先精准地指出了阻碍现有上下文适应方法发展的两个“顽疾”。

1. 简洁性偏好

许多自动优化提示的工具，其设计目标就是生成尽可能简短、通用的指令。这听起来是优点，但在实践中却成了缺点。例如，一个金融分析任务可能需要了解特定的XBRL报表规则，一个编程任务可能需要记住某个API的古怪特性。如果优化器为了简洁而把这些“干货”都删掉了，那么生成的指令就会变得空洞无物，无法指导模型解决具体问题。这种对简洁的过度追求，牺牲了领域特有的启发式知识和关键细节。

2. 上下文崩塌

另一种常见的方法是让语言模型在每一步都完全重写整个上下文。当上下文内容还不多时，这没问题。但随着学习到的策略和知识越来越多，上下文变得非常长，模型在重写时就会倾向于将其“概括”成一个极短的摘要，导致大量珍贵信息丢失。

如上图所示，论文中的一个案例显示，在第60步时，上下文包含超过1.8万个令牌，任务准确率达到66.7%。但在下一步，模型将上下文重写为一个仅含122个令牌的极简摘要，准确率瞬间暴跌至57.1%，甚至不如不进行任何优化的基线水平。这种现象就是“上下文崩塌”，它使得模型在迭代学习中“前功尽弃”。

ACE框架详解：构建自我演进的“战术手册”

面对上述挑战，ACE框架提出了一个根本性的解决方案：不要再压缩知识，而要让知识有序地积累和演化。

1. 核心思想：从“摘要”到“战术手册”

ACE的核心哲学是，上下文不应是简洁的摘要，而应是一本全面、演进中的战术手册。这本手册详细记录了成功的策略、常见的错误、领域特定的概念和可重用的代码片段。与人类喜欢概括不同，LLM在处理长而详细的上下文方面表现出色，并能自主筛选出相关信息。因此，ACE选择相信模型的判断力，为它提供丰富的“弹药”，而非有限的“口粮”。

2. 三大核心角色与工作流程

ACE借鉴了人类“实践-反思-总结”的学习模式，将一个复杂的优化过程分解给三个各司其职的“智能体”共同完成。

生成器：相当于“一线执行员”。它负责接收用户查询，利用当前的“战术手册”，生成解决问题的推理步骤和代码。它的任务是在实战中应用知识，并暴露出潜在的问题。
反思器：相当于“复盘专家”。它的职责是冷眼旁观生成器的操作轨迹，对比执行结果或标准答案，诊断哪里做对了、哪里做错了。它会提炼出具体的经验教训，例如“识别室友时，必须使用电话应用的通讯录API，而不能解析交易描述”。
策展人：相当于“手册编辑”。它接收反思器提炼出的经验教训，并以结构化的方式将它们更新到“战术手册”中。它负责决定哪些新知识需要添加，哪些旧知识需要修改或合并，确保手册内容的质量和条理性。

这种分工避免了让单个模型承担所有工作而可能导致的过载和性能下降，使得整个优化过程更加专业和高效。

3. 两大关键技术机制

为了支撑上述工作流并解决“上下文崩塌”问题，ACE引入了两项关键技术。

3.1 增量式更新

ACE不再重写整个上下文，而是将其表示为一系列结构化的、带编号的“知识子弹”。

每个子弹都有元数据和内容。
当需要更新时，反思器只生成一个紧凑的“增量上下文”，即一小批新的或待修改的子弹。
策展人则负责将这些增量“合并”到现有手册中。

这种方式好比在书上添加便签或修改某个段落，而不是把整本书重抄一遍，极大地节省了计算成本和时间，并完美保留了过往的所有知识。

3.2 生长与精炼机制

如果只增不减，手册会变得臃肿。因此，ACE采用了“生长与精炼”机制。

生长：新的知识以新增子弹的形式添加。
精炼：系统会定期或按需对子弹进行去重（通过比较语义向量）和合并，剔除冗余信息，保持手册的紧凑和高效。

实验验证：ACE有多强？

论文在两类最能体现其价值的任务上对ACE进行了全面评估：交互式智能体任务和领域特定推理任务。

1. 在智能体任务上的表现

在AppWorld这个要求模型理解API、生成代码并与环境交互的复杂智能体基准测试中，ACE表现卓越。

在离线优化 setting 下，ACE比强大的基线方法平均提升了17.0%的准确率。
更惊人的是，即使在没有标准答案的情况下，仅凭代码是否执行成功等环境反馈信号，ACE也能实现14.8%的平均提升。这证明了其强大的自学习能力。
在在线学习 setting 下，ACE同样显著优于其他自适应方法。
最具说服力的是，在AppWorld官方排行榜上，使用较小开源模型的ACE，其整体表现与榜首基于GPT-4.1的商业级智能体持平，并在更难的“挑战测试集”上实现了反超。

2. 在领域特定任务上的表现

在金融分析任务上，ACE同样展示了其构建领域知识手册的强大能力。

在离线优化 setting 下，ACE在FINER和Formula基准上取得了平均12.8%的巨大提升。
这表明，对于需要精确领域知识的任务，ACE能够有效地积累和整理专业知识，形成强大的“战术手册”。

3. 消融实验：为什么ACE有效？

论文通过消融实验验证了ACE各个组件的必要性。实验表明：

反思器和多轮次优化都对性能有显著贡献。缺少它们，性能会明显下降。
在在线学习开始前，先用离线数据对上下文进行“预热”，也能带来更好的效果。

这些实验证明了ACE的模块化设计是深思熟虑且行之有效的。

4. 成本与效率分析

ACE不仅在效果上领先，在效率上也极具优势。

在离线优化中，与GEPA相比，ACE将**适应延迟降低了82.3%**，所需的任务尝试次数减少了75.1%。
在在线优化中，与Dynamic Cheatsheet相比，ACE将**延迟降低了91.5%**，令牌成本降低了83.6%。

这主要归功于其增量式更新和非LLM的合并逻辑，避免了大量重复计算。

深入讨论与未来展望

1. 长上下文不等于高成本

有人可能会担心，ACE生成的长上下文会导致推理成本飙升。论文指出，现代推理基础设施正在通过KV缓存重用、压缩和卸载等技术，不断降低长上下文的摊销成本。频繁使用的上下文片段可以被缓存，避免重复计算。因此，长上下文带来的额外成本是可控且日益降低的。

2. 对持续学习的启示

ACE为机器的持续学习提供了一个新颖、灵活且高效的路径。与动辄需要更新数十亿参数的模型微调相比，调整上下文的成本要低得多。此外，由于上下文是人类可读的，它还实现了 “选择性遗忘”——当发现手册中存在错误或过时信息，或因合规要求需要删除某些信息时，我们可以直接对上下文进行编辑，而无需重新训练整个模型。这为构建负责任、可追溯、易管控的AI系统打开了新的大门。

结论：ACE的核心贡献与价值

本篇论文的贡献是多维度的：

精准的问题定位：清晰地指出了现有上下文适应方法中“简洁性偏好”和“上下文崩塌”两大核心缺陷。
创新的框架设计：提出了ACE框架，将上下文重新定义为一部动态演进的“战术手册”，并通过生成器、反思器、策展人的角色分工，模拟了高效的学习过程。
关键的技术机制：引入了增量式更新和生长与精炼机制，在保证知识积累的同时，解决了崩溃问题并提升了效率。
全面的实验验证：在智能体和领域任务上证明了ACE在性能上的显著提升，以及在成本和速度上的巨大优势，甚至展示了小模型挑战大模型潜力的可能。
深远的研究启示：为大型语言模型的低成本自学习、持续学习和可控治理指明了一个极具前景的新方向。

总而言之，ACE向我们展示了一条通往更智能、更高效、更可控AI系统的新路径：通过精心工程化那本陪伴模型左右的“战术手册”，我们能够在不动其根本的情况下，激发它们无限的进化潜能。

可能大家都想学习AI大模型技术，也_想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习_，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。
为了帮助大家打破壁垒，快速了解大模型核心技术原理，学习相关大模型技术。从原理出发真正入局大模型。在这里我和MoPaaS魔泊云联合梳理打造了系统大模型学习脉络，这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码免费领取🆓**⬇️⬇️⬇️

在这里插入图片描述

【大模型全套视频教程】

教程从当下的市场现状和趋势出发，分析各个岗位人才需求，带你充分了解自身情况，get 到适合自己的 AI 大模型入门学习路线。

从基础的 prompt 工程入手，逐步深入到 Agents，其中更是详细介绍了 LLM 最重要的编程框架 LangChain。最后把微调与预训练进行了对比介绍与分析。

同时课程详细介绍了AI大模型技能图谱知识树，规划属于你自己的大模型学习路线，并且专门提前收集了大家对大模型常见的疑问，集中解答所有疑惑！

在这里插入图片描述

深耕 AI 领域技术专家带你快速入门大模型

跟着行业技术专家免费学习的机会非常难得，相信跟着学习下来能够对大模型有更加深刻的认知和理解，也能真正利用起大模型，从而“弯道超车”，实现职业跃迁！

在这里插入图片描述

【精选AI大模型权威PDF书籍/教程】

精心筛选的经典与前沿并重的电子书和教程合集，包含《深度学习》等一百多本书籍和讲义精要等材料。绝对是深入理解理论、夯实基础的不二之选。

在这里插入图片描述

【AI 大模型面试题】

除了 AI 入门课程，我还给大家准备了非常全面的**「AI 大模型面试题」，**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等，帮你在面试大模型工作中更快一步。

【大厂 AI 岗位面经分享（92份）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

【640套 AI 大模型行业研究报告】

在这里插入图片描述

【AI大模型完整版学习路线图（2025版）】

明确学习方向，2025年 AI 要学什么，这一张图就够了！

👇👇点击下方卡片链接免费领取全部内容👇👇

在这里插入图片描述

抓住AI浪潮，重塑职业未来！

科技行业正处于深刻变革之中。英特尔等巨头近期进行结构性调整，缩减部分传统岗位，同时AI相关技术岗位（尤其是大模型方向）需求激增，已成为不争的事实。具备相关技能的人才在就业市场上正变得炙手可热。

行业趋势洞察：

转型加速： 传统IT岗位面临转型压力，拥抱AI技术成为关键。
人才争夺战： 拥有3-5年经验、扎实AI技术功底和真实项目经验的工程师，在头部大厂及明星AI企业中的薪资竞争力显著提升（部分核心岗位可达较高水平）。
门槛提高： “具备AI项目实操经验”正迅速成为简历筛选的重要标准，预计未来1-2年将成为普遍门槛。

与其观望，不如行动！

面对变革，主动学习、提升技能才是应对之道。掌握AI大模型核心原理、主流应用技术与项目实战经验，是抓住时代机遇、实现职业跃迁的关键一步。

在这里插入图片描述

01 为什么分享这份学习资料？

当前，我国在AI大模型领域的高质量人才供给仍显不足，行业亟需更多有志于此的专业力量加入。

因此，我们决定将这份精心整理的AI大模型学习资料，无偿分享给每一位真心渴望进入这个领域、愿意投入学习的伙伴！

我们希望能为你的学习之路提供一份助力。如果在学习过程中遇到技术问题，也欢迎交流探讨，我们乐于分享所知。

*02 这份资料的价值在哪里？*

专业背书，系统构建：

本资料由我与MoPaaS魔泊云的鲁为民博士共同整理。鲁博士拥有清华大学学士和美国加州理工学院博士学位，在人工智能领域造诣深厚：
- 在IEEE Transactions等顶级学术期刊及国际会议发表论文超过50篇。
- 拥有多项中美发明专利。
- 荣获吴文俊人工智能科学技术奖（中国人工智能领域重要奖项）。
目前，我有幸与鲁博士共同进行人工智能相关研究。

在这里插入图片描述

内容实用，循序渐进：

资料体系化覆盖了从基础概念入门到核心技术进阶的知识点。
包含丰富的视频教程与实战项目案例，强调动手实践能力。
无论你是初探AI领域的新手，还是已有一定技术基础希望深入大模型的学习者，这份资料都能为你提供系统性的学习路径和宝贵的实践参考，助力你提升技术能力，向大模型相关岗位转型发展。