AI 怎么知道你正在写代码而不是做饭?它怎么能判断你需要技术帮助而不是生活建议?
这种让机器"读懂"我们处境的能力,背后有个专门的领域——上下文工程。最近上海交大和 GAIR 团队的研究成果很有意思,帮我们理清了 AI 理解人类世界的发展脉络。
什么是上下文工程?
说到底,上下文工程就是让机器更好地理解用户在做什么、需要什么。这就像人与人聊天需要了解对方背景和意图一样,机器也需要这种"读心术"。
论文里有个很形象的比喻:上下文工程是在做"信息整理"。机器需要把我们杂乱无章的现实世界信息,整理成它们能理解的格式。这个过程虽然麻烦,但能让协作更顺畅。
四个发展阶段
根据论文的观点,上下文工程经历了四个主要发展阶段:
上下文工程 1.0:被动执行器(1990-2020)
这个阶段主要是人机交互(HCI)时代。机器能力有限,需要精确的指令,上下文相对简单。想想早期的命令行界面,你必须告诉电脑每一步该做什么。
历史背景:
这个时期的上下文工程,人类需要努力适应机器的逻辑。设计师们充当着"意图翻译者"的角色,把人类的需求转换成机器能够理解的格式。
技术特点:
- • 基于结构化输入和预定义命令
- • 上下文主要是简单的环境参数(系统状态、用户配置)
- • 交互成本高昂,需要用户具备技术背景
典型应用:
- • 早期的命令行界面(CLI)
- • 图形用户界面(GUI)的基础交互
- • 基于规则的专家系统
核心限制:
正如论文指出的,这个时期的机器"无法有效地填补沟通中的空白",不像人类能够在交流中进行上下文推理。
上下文工程 2.0:主动智能体(2020-至今)
我们正处在这个阶段,以 LLM 为代表。机器能够理解自然语言,处理一定的模糊性,但还是需要较多的人类指导。
技术突破:
这个阶段的关键变化是机器开始具备多步推理能力,能够处理长周期的任务。论文提到,这得益于检索增强生成(RAG)、工具调用(Tool Calling)等技术的发展。
上下文理解:
在这个阶段,上下文主要被理解为"指令"——机器把用户输入和相关信息作为任务指导来处理。
典型能力:
- • 自然语言理解和生成
- • 一定程度的模糊指令处理
- • 基于上下文的相关性推理
- • 工具使用和 API 调用
局限性:
尽管能力大幅提升,但系统仍然需要大量的人类指导,上下文窗口和处理深度仍然有限。
上下文工程 3.0:人类级智能(未来)
这是未来的发展方向。AI 将达到人类水平的智能,能够进行细致入微的交流,实现无缝协作。
质的飞跃:
论文预测,这个阶段将实现从"指令理解"到"场景理解"的转变。AI 不再把上下文当作简单的任务指导,而是能够理解完整的交互场景。
核心能力:
- • 人类级别的上下文理解力
- • 细腻的沟通和协作能力
- • 主动识别用户未明确表达的需求
- • 跨时间、跨任务的连续性理解
交互成本:
人机交互成本将大幅降低,因为 AI 能够像人类一样"填补沟通中的空白",理解隐含的意图和背景。
技术特征:
- • 更大的上下文窗口和更深的理解层次
- • 多模态信息的无缝融合
- • 个性化的长期记忆和学习能力
上下文工程 4.0:超人类智能(推测阶段)
AI 超越人类能力,能够主动构建和理解复杂的世界模型。
终极演进:
论文认为这是上下文工程的最终阶段,AI 将实现从"场景理解"到"世界理解"的跃迁。上下文不再是简单的交互背景,而是完整的世界模型。
超凡能力:
- • 主动构建和维护复杂的世界模型
- • 超越人类的智能和理解能力
- • 预测用户需求并提供前瞻性建议
- • 跨领域、跨文化的深度理解
交互范式:
人机交互成本降至最低,因为 AI 能够在用户意识到需求之前就准备好解决方案,实现真正的"心有灵犀"。
哲学意义:
这个阶段的 AI 不仅是工具,更像是伙伴和协作者,能够与人类共同创造和理解世界。
研究背景梳理
一句深刻的洞察
论文开头引用了马克思的一句:“A person is the sum of their contexts”(一个人是其所有上下文的总和)。这个看似简单的洞察,揭示了上下文对人类本质的深远影响。
如果我们将这个观点延伸到 AI 时代,就理解了为什么上下文工程如此重要——要让机器真正理解人类,它必须理解构成"人"的所有上下文。
超越 20 年的历史脉络
很多人以为上下文工程是 AI 时代的产物,但这个概念其实可以追溯到 20 多年前。论文作者指出,相关实践甚至可以追溯到 1990 年代早期。
早期的研究者们建立的基础理论和方法,至今仍然适用。
正式定义的价值
论文给出了上下文工程的正式定义:上下文工程是设计和优化系统,使机器能够理解用户处境和意图的系统性过程。
这个定义的价值在于它超越了具体的技术实现,为我们提供了一个统一的理论框架。更重要的是,它把上下文工程从一个"技术实践"提升到了"系统学科"的高度。
重要的范式转变
论文指出了一个重要的范式转变:从传统的"人机交互"到新兴的"人代理交互"(HAI)。这个转变不仅仅是术语的变化,代表了智能水平的质的飞跃。
- • 传统时代:人类需要适应机器,设计师充当"意图翻译者"
- • 智能时代:机器开始理解人类,主动感知用户状态和环境
实际应用价值
了解上下文工程的发展阶段,对我们有几个实际帮助:
- • 系统设计:在设计 AI 应用时考虑如何收集和处理上下文信息
- • 技术预判:预测未来的发展方向,做出更有前瞻性的选择
- • 方案优化:选择合适的技术方案来降低人机交互成本
现阶段的实际情况
我们正处于上下文工程 2.0 阶段,这个阶段的表现可以说是好坏参半。
好的一面:
- • 自然语言交互成为了现实
- • 机器能理解更复杂的指令
- • 人机协作的门槛降低了很多
面临的限制:
- • 上下文长度还是很有限
- • 理解深度不够深
- • 大部分时候还是需要人工指导
- • 复杂场景处理能力不足
给开发者的建议
基于上下文工程的发展现状,这里有几点实用建议:
1. 重新思考上下文设计
做 AI 应用时,不能只盯着功能实现,更要考虑如何收集和处理上下文信息。用户现在是什么状态?他想要什么?这些比功能本身更重要。
2. 关注用户体验成本
好的 AI 系统应该让用户花最少的力气获得最大的价值。这应该是上下文工程的核心目标。
3. 保持技术前瞻性
了解上下文工程的发展趋势,能帮助我们做出更明智的技术选择。
2.0 阶段的实践方法
结合论文的结构化分析,这里整理了一些可落地的工程实践,主要围绕"收集、管理、使用"三个核心环节。
上下文信息怎么收集和存储
事件化记录方式
把所有"发生了什么"都统一按事件格式记录,包括时间戳、来源、类型、标签。建议这样组织数据:
{ "ts": 1731225600, "source": "cli|ide|browser|os|sensor", "modality": ["text", "image", "audio", "meta"], "payload": { "...": "原始内容或引用" }, "tags": ["role:developer", "task:bugfix", "repo:foo"]}
分层存储架构
- • 工作记忆:放最近的几件事、当前任务目标、约束条件
- • 近程记忆:用 SQLite/LevelDB 这类本地数据库存任务状态、用户偏好、活动记录
- • 长程记忆:云端服务负责跨设备同步和历史归档,敏感信息用系统安全存储保护
- • 任务断点:定期保存任务进度和中间结果,方便中断后恢复
多端数据采集
2.0 阶段的特点是数据来源多样化:手机、PC、IDE、浏览器、可穿戴设备都能作为信息收集的传感器。即使是单一设备,也要尽量收集多种类型的数据(文本、点击轨迹、文件结构、运行日志等)。
上下文信息的管理和处理
文本信息处理
- • 给每条文本加上时间戳和角色标签(比如请求者、评审者、工具调用者),方便后续检索
- • 信息压缩:整理成问答对、分层笔记、要点摘要,同时保留原文和摘要两个版本
- • 结构化抽取:用固定的格式(事实、实体、约束、决策)来提取关键信息,便于系统间共享
多模态数据融合
- • 统一向量空间:把文本、图像、音频都编码到同一个可比较的向量空间,通过相似度来找相关内容
- • 独立编码+融合:每种数据类型先单独编码,然后在更高层进行融合处理
- • 跨模态注意力:用一种模态的数据去关注另一种模态,提高定位精度
信息组织和隔离
- • 层次化记忆:工作记忆 → 短期记忆 → 长期记忆,按照时效性、重要性、容量来管理流动
- • 上下文隔离:给不同的功能模块分配独立的存储空间,避免信息相互干扰,需要时通过接口共享
渐进式信息处理
- • 先保存原始数据,再逐步生成摘要、要点和语义向量
- • 用固定格式提取关键事实
- • 随着时间推移对旧内容进行更强压缩,但保留重要信息的锚点和引用
如何有效使用上下文信息
信息筛选和调用
- • 用新近性、重要性、多样性、任务相关性来给信息打分,设置检索预算避免无效信息
- • 不同任务阶段用不同的上下文包:理解需求时用事实和约束,设计方案时用示例和决策记录,具体执行时用步骤和中间状态
系统内部信息共享
- • 在多代理系统中,把上一轮的结构化信息嵌入到下一轮的提示中
- • 用标准化消息格式在不同代理之间传递信息
- • 通过共享内存实现间接通信,配合访问控制策略
跨系统信息交换
- • 用适配器把内部上下文转换为通用的事件格式
- • 建立统一的数据表示层,减少对特定模型或平台的依赖
智能预测和学习
- • 从长期记忆中分析用户的偏好和模式(编辑风格、命名习惯、技术栈)
- • 采用"建议 → 确认"的半主动方式,逐步减少用户的手动输入负担
落地要点
基础架构
- • 确定事件模型和数据格式,包含时间戳、来源、类型、标签
- • 建立短期、中期、长期的分层存储机制,定期保存快照
数据处理
- • 文本信息是否加上标签并实现多级压缩,保留原文追溯
- • 是否实现功能模块间的上下文隔离和受控共享
检索和使用
- • 提供统一的检索接口,明确检索预算和排序策略
- • 准备跨系统的适配层和通用数据表示,便于集成
优化策略
- • 配置后台的渐进压缩任务,控制数据体积同时保留关键信息
整体架构图
信息使用
信息管理
存储架构
隔离优化
功能域隔离
渐进压缩
多模态融合
统一向量空间
独立编码融合
跨模态注意力
整理处理
标签化处理
信息压缩
结构化提取
数据收集
事件化采集\n 时间戳/来源/类型/标签
多端传感器\n PC/IDE/浏览器/手机/穿戴设备
工作记忆
中期存储\n 本地数据库
长期存储\n 云端服务
任务断点
信息筛选和排序
上下文打包
系统内共享
跨系统交换
智能预测
架构设计的技术权衡
这个架构体现了几个关键的设计权衡:
存储层次的选择
- • 工作记忆:容量最小但速度最快,适合当前任务的即时信息
- • 中期存储:平衡了容量和访问速度,适合会话级别的数据
- • 长期存储:容量大但访问相对较慢,适合历史数据和跨设备同步
处理复杂度 vs 实时性
- • 简单任务可以直接使用工作记忆,保证实时响应
- • 复杂任务需要调用中期或长期存储,会增加延迟但提供更丰富的上下文
安全性 vs 便利性
- • 敏感信息需要特殊存储机制,增加系统复杂度
- • 通用信息可以快速处理,但需要严格的数据隔离
从理论到实践:案例解析
Gemini CLI 的实际应用
论文中提到了一个很好的例子:当用户在 Gemini CLI 中输入"Search related documentation for me"时,系统需要考虑的上下文包括:
- • 直接实体:用户、Gemini CLI 应用、终端环境
- • 间接实体:外部工具、内存模块、后端模型服务
- • 环境因素:应用领域、用户历史行为、当前工作目录
这个例子展示了上下文工程的复杂性——表面简单的命令背后,系统需要协调多个实体和信息源。
早期研究的遗产
很多人不知道的是,上下文工程的很多理念可以追溯到 20 多年前的研究。2000 年初期,Anind Dey 等人就建立了 robust 的理论框架,开发了 Context Toolkit,这些工作为今天的 AI 系统奠定了基础。
核心设计原则:
-
- 时间戳标记:每条信息都要记录时间,便于建立因果关系
-
- 角色标签:明确信息的来源和用途(请求者、评审者、工具调用者)
-
- 模块化设计:不同功能模块独立工作,通过接口交换信息
这些原则在今天看来依然适用,说明好的设计理念能够跨越技术周期。
深度理解:上下文的数学定义
论文中给出了上下文的正式数学定义,帮助我们更精确地理解这个概念:
实体和特征化:设 E 是所有实体的空间(用户、应用、对象、环境),Char(e)描述实体 e 的特征
交互:用户和应用之间的任何可观察的互动
上下文:对于给定的用户-应用交互,上下文定义为所有与该交互相关的实体及其特征化的集合
这个定义看起来抽象,但实际上很有用。它告诉我们:上下文不是单一的信息,而是一个关系网络——包含了所有参与交互的实体以及它们之间的关系。
总结
回顾上下文工程的发展历程,我们看到的不仅是技术的进步,更是人机关系的深刻变革。
从 1.0 时代的"人适应机器",到 2.0 时代的"机器开始理解人",再到未来 3.0 和 4.0 时代的"人机共生",这个演进轨迹展现了 AI 理解的质的飞跃。
对开发者的启示
理解上下文工程,不仅能帮助我们设计出更好的 AI 系统,更重要的是培养一种"以人为本"的技术思维。技术终将服务于人,而真正的智能,在于理解人、体贴人。
未来的展望
我们正处于上下文工程 2.0 的关键时期。虽然现在的 AI 系统还有很多局限性,但发展的方向是明确的:更自然的交互、更深入的理解、更主动的协助。
正如论文开头引用的那句:“A person is the sum of their contexts”。也许未来的某一天,AI 真正理解了这句话的含义,就实现了我们今天想象的人工智能。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!

06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

396

被折叠的 条评论
为什么被折叠?



