大模型论文 | 深度解析上下文工程——解锁大语言模型的真正潜力_《a survey of context engineering for large languag-优快云博客

文章系统介绍了上下文工程这一超越传统提示工程的新兴学科，通过分析1400余篇研究论文建立了完整的技术路线图。研究揭示了当前大语言模型存在理解与生成能力的根本不对称性：模型在处理复杂上下文方面表现卓越，但在生成复杂长篇输出方面存在明显局限。文章详细阐述了上下文工程的分类体系、评估方法和未来研究方向，为解决LLMs面临的"幻觉"、知识时效性和复杂推理能力有限等挑战提供了系统性解决方案。

《A Survey of Context Engineering for Large Language Models》论文解读

论文基本信息

• 标题: A Survey of Context Engineering for Large Language Models
• 作者: Lingrui Mei, Jiayu Yao, Yuyao Ge, Yiwei Wang, Baolong Bi, Yujun Cai, Jiazhi Liu, Mingyu Li, Zhong-Zhi Li, Duzhen Zhang, Chenlin Zhou, Jiayi Mao, Tianze Xia, Jiafeng Guo, Shenghua Liu
• 发表日期: 2025年7月17日 (v1), 2025年7月21日 (v2)
• arXiv ID: 2507.13334
• 页数: 166页
• 引用文献: 1411篇引用文献

摘要与研究背景

大型语言模型（LLMs）的性能根本上取决于推理过程中提供的上下文信息。本综述介绍了上下文工程（Context Engineering），这是一门超越简单提示设计的正式学科，旨在系统地优化LLMs的信息负载。

论文通过对1400多篇研究论文的系统分析，建立了完整的技术路线图，并揭示了一个关键研究空白：模型能力之间存在根本性的不对称。尽管当前模型在理解复杂上下文方面表现卓越，但在生成同样复杂的长篇输出方面却存在明显局限性。

1. 上下文工程的定义与重要性

1.1 定义

上下文工程是指为大型语言模型设计和构建一整套动态的信息生态系统，包括上下文的检索、生成、处理、管理及其系统集成，目的是确保模型在推理时能够获取充分且相关的上下文信息，从而提升其理解、推理和生成能力。这种系统性方法不局限于提示词的设计，而是关注整个信息流的生命周期管理。

1.2 学科定位

作为一门独立的专业学科，上下文工程超越了传统的提示工程（Prompt Engineering），后者主要关注静态指令的优化设计，而上下文工程则聚焦于构建完整的信息生态系统，动态管理LLMs推理过程中的上下文环境。

1.3 重要性

解决LLMs的根本挑战： 即使最先进的LLMs也面临着"幻觉"（生成虚假信息）、知识时效性和复杂推理能力有限等挑战，上下文工程通过提供外部知识和结构化上下文来有效缓解这些问题。

适应LLMs架构特点： 现代LLMs采用Transformer架构，通过注意力机制处理上下文，上下文工程正是基于这一特性，提供精心设计的上下文以充分发挥模型潜力。

2. 上下文工程的分类体系

论文提出了一个二层分类体系，将上下文工程解构为基础组件（Foundational Components）和系统实现（Sophisticated System Implementations）两大类别。

2.1 基础组件 (Foundational Components)

基础组件是构成上下文工程的基石，它们共同作用于上下文信息的生命周期，从获取、处理到管理，形成一个完整的上下文处理流水线。

2.1.1 上下文检索与生成 (Context Retrieval and Generation)

核心功能： 负责从外部知识源中获取相关信息，以及根据需求生成新的上下文，为LLMs提供必要的外部知识。

关键技术与方法：

• 信息检索技术：

• 稠密检索（Dense Retrieval）： 使用语义向量表示文档和查询，通过向量相似度匹配，如DPR（Dense Passage Retrieval）和REALM模型
• 稀疏检索（Sparse Retrieval）： 基于关键词匹配的传统检索方法，如BM25和TF-IDF算法
• 混合检索（Hybrid Retrieval）： 结合稠密和稀疏方法的优势，如ColBERT和SPLADE模型
• 重排序（Reranking）： 对初始检索结果进行精细排序，如使用交叉编码器（Cross-Encoders）评估查询与文档的匹配度

• 知识图谱应用：

• 实体链接（Entity Linking）： 将文本中的实体与知识图谱中的节点关联
• 关系推理（Relation Reasoning）： 通过图结构分析实体间的关系
• 路径发现（Path Finding）： 在知识图谱中找到连接相关概念的路径，为LLM提供结构化知识

• 上下文自生成：

• 思维链生成（Chain-of-Thought Generation）： 让模型生成中间推理步骤，增强复杂推理能力
• 自问自答（Self-questioning）： 模型生成问题并回答，拓展上下文的深度和广度
• 反思与修正（Reflection and Revision）： 模型对自己的输出进行评估和改进，提高质量

2.1.2 上下文处理 (Context Processing)

核心功能： 对获取的原始上下文进行清洗、转换、压缩和优化，使其更适合LLMs处理，解决上下文长度限制和信息质量问题。

关键技术与方法：

• 文本清洗与规范化：

• 噪声移除： 清除HTML标签、广告内容、无关元素等
• 格式标准化： 统一文本格式，处理特殊字符和编码问题
• 语法纠正： 修正拼写错误和语法问题，提高文本质量

• 信息抽取与结构化：

• 命名实体识别（NER）： 识别文本中的人名、地点、组织等实体
• 关系抽取： 识别实体之间的语义关系
• 事件抽取： 从文本中提取事件信息，包括时间、地点、参与者等
• 表格化处理： 将非结构化文本转换为结构化表格数据

• 上下文压缩技术：

• 抽取式摘要： 从原文中提取关键句子构成摘要，如TextRank算法
• 生成式摘要： 理解原文后重新生成简洁摘要，如BART和PEGASUS模型
• 递归压缩： 将长文档分解为块，分别摘要后再组合，适合极长文档
• 自适应压缩： 根据内容重要性动态调整压缩率，保留核心信息

2.1.3 上下文管理 (Context Management)

核心功能： 专注于上下文的存储、维护、更新和生命周期管理，确保上下文的及时性、一致性和可用性，尤其在长时间交互和多轮对话中至关重要。

关键技术与方法：

• 记忆系统架构：

• 短期记忆（Short-term Memory）： 存储当前会话或任务的临时信息，通常直接包含在上下文窗口中
• 中期记忆（Mid-term Memory）： 存储跨多个交互轮次但仍在当前会话中的信息，如使用向量数据库存储近期交互
• 长期记忆（Long-term Memory）： 跨会话持久化存储，包括用户偏好、历史交互模式等

• 记忆操作机制：

• 记忆存储： 将重要信息编码并保存到适当的记忆库中
• 记忆检索： 根据当前上下文从记忆库中检索相关信息
• 记忆更新： 根据新信息更新已存储的记忆内容
• 记忆遗忘： 自动淘汰过时或不相关的记忆，优化存储效率

2.2 系统实现 (Sophisticated System Implementations)

系统实现将上述基础组件整合到实际应用中，形成完整的上下文工程解决方案。

2.2.1 检索增强生成 (Retrieval-Augmented Generation, RAG)

核心原理： RAG系统通过结合外部知识检索和LLM的生成能力，使模型能够访问并利用大规模的最新知识，克服预训练数据的局限性和时效性问题。

架构与技术实现：

• 传统RAG架构：

• 查询分析： 解析用户查询，提取关键信息
• 检索阶段： 从知识库中检索相关文档
• 上下文增强： 将检索到的文档与原始查询组合
• 生成阶段： LLM基于增强上下文生成回答

• 先进RAG变体：

• 多步骤RAG（Multi-step RAG）： 将复杂查询分解为子查询，逐步检索和整合信息
• 迭代RAG（Iterative RAG）： 生成初步回答后，基于此回答生成新查询，进行多轮检索与生成
• 自适应RAG（Adaptive RAG）： 根据查询类型和难度动态调整检索策略和参数
• 混合RAG（Hybrid RAG）： 组合多种检索方法和知识源

2.2.2 记忆系统与工具集成推理 (Memory Systems and Tool-integrated Reasoning)

核心原理： 这一系统通过持久化记忆和外部工具的集成，大幅扩展LLM的能力边界，使其能够维护长期上下文并执行超出自身能力范围的任务。

关键组件与技术：

• 记忆系统架构：

• 多级缓存记忆： 类似计算机内存层次结构，设计从快速访问的临时记忆到持久化长期记忆的层次体系
• 语义索引： 使用向量嵌入为记忆内容建立语义索引，支持相似性搜索
• 记忆压缩： 定期对记忆内容进行压缩和整合，提高存储效率

• 工具集成框架：

• 工具调用机制： 定义标准化的接口，使LLM能够识别并调用外部工具
• ReAct范式： 交替进行推理（Reasoning）和行动（Acting），通过"思考-行动-观察"循环解决复杂问题
• 工具选择策略： 智能选择最适合当前任务的工具

2.2.3 多智能体系统 (Multi-agent Systems)

核心原理： 多智能体系统通过多个专业化LLM智能体的协作，实现任务分解、并行处理和集体决策，从而解决单一模型难以处理的复杂问题。

系统架构与关键技术：

• 智能体角色与专业化：

• 专家智能体： 在特定领域拥有深入知识和技能的智能体
• 协调智能体： 负责任务分配、进度监控和结果整合的中央智能体
• 批评智能体： 专门评估和改进其他智能体输出的质量控制智能体

• 协作机制与协议：

• 任务分解： 将复杂任务拆分为子任务，分配给适合的智能体
• 上下文共享： 智能体间共享关键上下文，确保协作一致性
• 消息传递： 定义标准化的通信协议和消息格式
• 冲突解决： 处理智能体之间的分歧和矛盾

3. 关键研究发现

3.1 模型能力的根本不对称性

核心发现： 当前大语言模型在理解复杂上下文方面表现出卓越的能力，但在生成同样复杂、长篇的输出方面却存在明显的局限性。这种输入处理能力与输出生成能力之间的不对称构成了当前LLMs的根本限制。

技术分析：

• 输入处理能力已通过上下文工程得到显著增强，如通过RAG系统接入海量知识、通过多智能体系统分解复杂问题
• 输出生成能力仍受限于模型自身架构和训练方法，特别是在生成连贯、结构化的长文档时表现不佳
• 这种不对称性导致了"理解瓶颈"向"生成瓶颈"的转移，成为未来研究的关键挑战

3.2 上下文管理的复杂性挑战

随着上下文窗口扩大，上下文管理的复杂性呈指数级增长，主要体现在：

• 相关性稀释： 上下文量增加导致真正相关信息被稀释
• 注意力分散： 模型难以在大量信息中准确定位关键内容
• 冲突处理： 更多上下文带来更多潜在矛盾和不一致
• 上下文污染： 无关或误导性信息干扰模型推理

3.3 系统集成的重要性

研究表明，单纯提高基础模型能力已进入收益递减阶段，而通过系统集成方法（如RAG、工具使用和多智能体协作）可以获得更显著的性能提升：

• 能力互补： 不同组件在各自擅长的领域发挥作用
• 模块化设计： 便于维护、更新和扩展系统功能
• 错误隔离： 单个组件的失败不会导致整个系统崩溃
• 渐进式改进： 可以逐步优化各个组件而不需要重建整个系统

4. 评估方法

论文总结了现有研究中常用的评估范式，评估上下文工程的效果通常涉及以下几个方面：

4.1 任务导向评估

针对特定任务（如问答、摘要、对话、代码生成等），评估LLM在引入上下文工程技术后的性能提升。常用的指标包括：

• 准确率（Accuracy）： 在问答任务中，答案的正确性
• 召回率（Recall）和精确率（Precision）： 在信息检索和生成相关性方面
• F1分数： 综合精确率和召回率
• ROUGE/BLEU： 在文本生成任务中，评估生成文本与参考文本的相似度
• 人类评估（Human Evaluation）： 针对生成文本的流畅性、连贯性、相关性、事实准确性等进行主观评价

4.2 上下文利用效率评估

评估LLM对所提供上下文信息的利用程度：

• 信息覆盖率： 生成内容中包含上下文信息的比例
• 冗余度： 生成内容中不必要的重复或无关信息的程度
• 幻觉率： 生成内容中与上下文信息不符或捏造信息的比例

4.3 系统效率评估

评估上下文工程系统在实际应用中的效率：

• 延迟（Latency）： 响应时间
• 吞吐量（Throughput）： 单位时间内处理的请求数量
• 计算资源消耗： CPU/GPU、内存等资源的使用情况

4.4 鲁棒性评估

评估系统在面对噪声、不完整或对抗性上下文时的表现。

下图直观展示了上下文工程的评估框架，总结了评估不同方面的关键指标：

图：上下文工程评估框架流程图 - 展示了四个核心评估维度及其对应的具体指标

5. 未来研究方向与挑战

论文明确指出了上下文工程领域的未来研究方向和面临的挑战，主要集中在解决当前存在的"理解与生成不对称性"问题。

图：上下文工程未来研究方向与挑战思维导图 - 展示了七个关键研究方向及其子方向

5.1 解决理解与生成的不对称性

这是论文强调的"关键研究空白"。未来的研究需要探索如何使LLM在生成复杂、长篇输出时，能够像理解复杂上下文一样表现出卓越的能力：

• 更精细的生成控制： 开发新的生成策略，允许LLM更好地规划和组织长篇输出
• 多模态上下文工程： 扩展上下文工程到文本之外的模态（图像、音频、视频），以处理更丰富的现实世界信息
• 更强的推理能力： 提升LLM在长上下文中的多跳推理、逻辑推理能力

5.2 真正的"Context Scaling"

不仅仅是上下文长度的扩展，更是上下文类型与处理机制的扩展：

• 异构上下文处理： 如何有效整合和利用来自不同来源、不同格式的异构上下文信息
• 动态上下文管理： 开发更智能的机制，根据任务需求动态地选择、更新和管理上下文
• 个性化上下文： 为不同用户或不同场景提供定制化的上下文

5.3 可解释性与可控性

随着上下文工程的复杂性增加，理解LLM如何利用上下文以及如何控制其行为变得更加重要：

• 上下文透明度： 明确显示哪些上下文影响了模型的决策
• 上下文溯源： 追踪生成内容中信息的来源，支持事实核查
• 可控生成： 允许用户指定生成内容的风格、长度和深度
• 偏见检测与缓解： 识别和减轻上下文中可能导致偏见的因素

5.4 效率与可扩展性

在处理超长上下文和大规模应用时，如何保持系统的效率和可扩展性是一个持续的挑战。

5.5 伦理与偏见

上下文的选择和处理可能引入或放大偏见，未来的研究需要关注如何构建公平、无偏的上下文工程系统：

• 隐私保护上下文处理： 在保护用户隐私的同时有效利用上下文信息
• 安全过滤机制： 防止有害或不适当内容进入上下文
• 合规性框架： 确保上下文工程实践符合法规要求
• 知识产权保护： 在使用外部知识源时尊重和保护知识产权

5.6 与人类认知的对齐

探索如何使LLM的上下文处理方式更接近人类的认知过程，从而提升其泛化能力和鲁棒性。

5.7 基准测试与评估框架

随着领域的发展，需要更全面、更具挑战性的基准测试和评估框架来衡量上下文工程的进展。

6. 论文的主要贡献与影响

6.1 理论贡献

• 学科定义与框架： 首次正式定义上下文工程学科，建立统一概念框架
• 分类体系构建： 提出基础组件与系统实现的二层分类体系，系统化现有研究
• 研究空白识别： 发现模型理解与生成能力的不对称性，指明核心研究方向
• 技术路线图： 通过分析1400余篇论文，勾勒出领域发展的清晰路径

6.2 实践影响

• 指导系统设计： 为开发者提供构建上下文感知AI系统的架构指南
• 技术选型参考： 帮助工程师根据应用需求选择合适的上下文工程技术
• 行业标准化： 为行业建立统一的术语和评估标准，促进技术交流
• 跨领域整合： 促进不同AI子领域间的技术整合，推动系统性创新

7. 结论

《A Survey of Context Engineering for Large Language Models》通过建立上下文工程这一新兴学科的系统框架，填补了大语言模型研究领域的重要空白。该综述不仅梳理了过去的研究成果，更重要的是指明了未来的研究方向，特别是解决模型理解与生成能力不对称性的关键挑战。

论文的核心贡献在于：

1. 建立了Context Engineering的正式学科框架：超越了传统提示工程的范畴，为这一新兴领域提供了系统性的理论基础
1. 提出了系统性的分类体系：将复杂的上下文处理技术进行了清晰的分类，为研究和应用提供了结构化指导
1. 揭示了模型能力不对称问题：识别出当前LLMs在理解与生成能力之间的根本性差异，为未来研究指明了重要方向
1. 构建了技术路线图：通过对1400多篇论文的系统分析，为研究人员和工程师提供了全面的技术发展脉络

随着大语言模型从实验室走向广泛应用，上下文工程将成为确保这些系统发挥最大潜力的关键学科，推动AI系统向更智能、可靠和实用的方向发展。特别是在解决模型能力不对称性、提升长文本生成能力、优化上下文管理机制等方面，上下文工程将发挥越来越重要的作用。

参考文献

• Mei, L., Yao, J., Ge, Y., Wang, Y., Bi, B., Cai, Y., … & Liu, S. (2025). A Survey of Context Engineering for Large Language Models. arXiv preprint arXiv:2507.13334. https://arxiv.org/abs/2507.13334