【收藏级干货】AI如何理解人类需求?上下文工程的演进与开发实践

AI 怎么知道你正在写代码而不是做饭?它怎么能判断你需要技术帮助而不是生活建议?

这种让机器"读懂"我们处境的能力,背后有个专门的领域——上下文工程。最近上海交大和 GAIR 团队的研究成果很有意思,帮我们理清了 AI 理解人类世界的发展脉络。

什么是上下文工程?

说到底,上下文工程就是让机器更好地理解用户在做什么、需要什么。这就像人与人聊天需要了解对方背景和意图一样,机器也需要这种"读心术"。

论文里有个很形象的比喻:上下文工程是在做"信息整理"。机器需要把我们杂乱无章的现实世界信息,整理成它们能理解的格式。这个过程虽然麻烦,但能让协作更顺畅。

四个发展阶段

根据论文的观点,上下文工程经历了四个主要发展阶段:

上下文工程 1.0:被动执行器(1990-2020)

这个阶段主要是人机交互(HCI)时代。机器能力有限,需要精确的指令,上下文相对简单。想想早期的命令行界面,你必须告诉电脑每一步该做什么。

历史背景
这个时期的上下文工程,人类需要努力适应机器的逻辑。设计师们充当着"意图翻译者"的角色,把人类的需求转换成机器能够理解的格式。

技术特点

  • • 基于结构化输入和预定义命令
  • • 上下文主要是简单的环境参数(系统状态、用户配置)
  • • 交互成本高昂,需要用户具备技术背景

典型应用

  • • 早期的命令行界面(CLI)
  • • 图形用户界面(GUI)的基础交互
  • • 基于规则的专家系统

核心限制
正如论文指出的,这个时期的机器"无法有效地填补沟通中的空白",不像人类能够在交流中进行上下文推理。

上下文工程 2.0:主动智能体(2020-至今)

我们正处在这个阶段,以 LLM 为代表。机器能够理解自然语言,处理一定的模糊性,但还是需要较多的人类指导。

技术突破
这个阶段的关键变化是机器开始具备多步推理能力,能够处理长周期的任务。论文提到,这得益于检索增强生成(RAG)、工具调用(Tool Calling)等技术的发展。

上下文理解
在这个阶段,上下文主要被理解为"指令"——机器把用户输入和相关信息作为任务指导来处理。

典型能力

  • • 自然语言理解和生成
  • • 一定程度的模糊指令处理
  • • 基于上下文的相关性推理
  • • 工具使用和 API 调用

局限性
尽管能力大幅提升,但系统仍然需要大量的人类指导,上下文窗口和处理深度仍然有限。

上下文工程 3.0:人类级智能(未来)

这是未来的发展方向。AI 将达到人类水平的智能,能够进行细致入微的交流,实现无缝协作。

质的飞跃
论文预测,这个阶段将实现从"指令理解"到"场景理解"的转变。AI 不再把上下文当作简单的任务指导,而是能够理解完整的交互场景。

核心能力

  • • 人类级别的上下文理解力
  • • 细腻的沟通和协作能力
  • • 主动识别用户未明确表达的需求
  • • 跨时间、跨任务的连续性理解

交互成本
人机交互成本将大幅降低,因为 AI 能够像人类一样"填补沟通中的空白",理解隐含的意图和背景。

技术特征

  • • 更大的上下文窗口和更深的理解层次
  • • 多模态信息的无缝融合
  • • 个性化的长期记忆和学习能力

上下文工程 4.0:超人类智能(推测阶段)

AI 超越人类能力,能够主动构建和理解复杂的世界模型。

终极演进
论文认为这是上下文工程的最终阶段,AI 将实现从"场景理解"到"世界理解"的跃迁。上下文不再是简单的交互背景,而是完整的世界模型。

超凡能力

  • • 主动构建和维护复杂的世界模型
  • • 超越人类的智能和理解能力
  • • 预测用户需求并提供前瞻性建议
  • • 跨领域、跨文化的深度理解

交互范式
人机交互成本降至最低,因为 AI 能够在用户意识到需求之前就准备好解决方案,实现真正的"心有灵犀"。

哲学意义
这个阶段的 AI 不仅是工具,更像是伙伴和协作者,能够与人类共同创造和理解世界。

研究背景梳理

一句深刻的洞察

论文开头引用了马克思的一句:“A person is the sum of their contexts”(一个人是其所有上下文的总和)。这个看似简单的洞察,揭示了上下文对人类本质的深远影响。

如果我们将这个观点延伸到 AI 时代,就理解了为什么上下文工程如此重要——要让机器真正理解人类,它必须理解构成"人"的所有上下文。

超越 20 年的历史脉络

很多人以为上下文工程是 AI 时代的产物,但这个概念其实可以追溯到 20 多年前。论文作者指出,相关实践甚至可以追溯到 1990 年代早期。

早期的研究者们建立的基础理论和方法,至今仍然适用。

正式定义的价值

论文给出了上下文工程的正式定义:上下文工程是设计和优化系统,使机器能够理解用户处境和意图的系统性过程。

这个定义的价值在于它超越了具体的技术实现,为我们提供了一个统一的理论框架。更重要的是,它把上下文工程从一个"技术实践"提升到了"系统学科"的高度。

重要的范式转变

论文指出了一个重要的范式转变:从传统的"人机交互"到新兴的"人代理交互"(HAI)。这个转变不仅仅是术语的变化,代表了智能水平的质的飞跃。

  • 传统时代:人类需要适应机器,设计师充当"意图翻译者"
  • 智能时代:机器开始理解人类,主动感知用户状态和环境

实际应用价值

了解上下文工程的发展阶段,对我们有几个实际帮助:

  • 系统设计:在设计 AI 应用时考虑如何收集和处理上下文信息
  • 技术预判:预测未来的发展方向,做出更有前瞻性的选择
  • 方案优化:选择合适的技术方案来降低人机交互成本

现阶段的实际情况

我们正处于上下文工程 2.0 阶段,这个阶段的表现可以说是好坏参半。

好的一面:

  • • 自然语言交互成为了现实
  • • 机器能理解更复杂的指令
  • • 人机协作的门槛降低了很多

面临的限制:

  • • 上下文长度还是很有限
  • • 理解深度不够深
  • • 大部分时候还是需要人工指导
  • • 复杂场景处理能力不足

给开发者的建议

基于上下文工程的发展现状,这里有几点实用建议:

1. 重新思考上下文设计

做 AI 应用时,不能只盯着功能实现,更要考虑如何收集和处理上下文信息。用户现在是什么状态?他想要什么?这些比功能本身更重要。

2. 关注用户体验成本

好的 AI 系统应该让用户花最少的力气获得最大的价值。这应该是上下文工程的核心目标。

3. 保持技术前瞻性

了解上下文工程的发展趋势,能帮助我们做出更明智的技术选择。

2.0 阶段的实践方法

结合论文的结构化分析,这里整理了一些可落地的工程实践,主要围绕"收集、管理、使用"三个核心环节。

上下文信息怎么收集和存储

事件化记录方式
把所有"发生了什么"都统一按事件格式记录,包括时间戳、来源、类型、标签。建议这样组织数据:

{  "ts": 1731225600,  "source": "cli|ide|browser|os|sensor",  "modality": ["text", "image", "audio", "meta"],  "payload": { "...": "原始内容或引用" },  "tags": ["role:developer", "task:bugfix", "repo:foo"]}

分层存储架构

  • 工作记忆:放最近的几件事、当前任务目标、约束条件
  • 近程记忆:用 SQLite/LevelDB 这类本地数据库存任务状态、用户偏好、活动记录
  • 长程记忆:云端服务负责跨设备同步和历史归档,敏感信息用系统安全存储保护
  • 任务断点:定期保存任务进度和中间结果,方便中断后恢复

多端数据采集
2.0 阶段的特点是数据来源多样化:手机、PC、IDE、浏览器、可穿戴设备都能作为信息收集的传感器。即使是单一设备,也要尽量收集多种类型的数据(文本、点击轨迹、文件结构、运行日志等)。

上下文信息的管理和处理

文本信息处理

  • • 给每条文本加上时间戳和角色标签(比如请求者、评审者、工具调用者),方便后续检索
  • • 信息压缩:整理成问答对、分层笔记、要点摘要,同时保留原文和摘要两个版本
  • • 结构化抽取:用固定的格式(事实、实体、约束、决策)来提取关键信息,便于系统间共享

多模态数据融合

  • 统一向量空间:把文本、图像、音频都编码到同一个可比较的向量空间,通过相似度来找相关内容
  • 独立编码+融合:每种数据类型先单独编码,然后在更高层进行融合处理
  • 跨模态注意力:用一种模态的数据去关注另一种模态,提高定位精度

信息组织和隔离

  • 层次化记忆:工作记忆 → 短期记忆 → 长期记忆,按照时效性、重要性、容量来管理流动
  • 上下文隔离:给不同的功能模块分配独立的存储空间,避免信息相互干扰,需要时通过接口共享

渐进式信息处理

  • • 先保存原始数据,再逐步生成摘要、要点和语义向量
  • • 用固定格式提取关键事实
  • • 随着时间推移对旧内容进行更强压缩,但保留重要信息的锚点和引用

如何有效使用上下文信息

信息筛选和调用

  • • 用新近性、重要性、多样性、任务相关性来给信息打分,设置检索预算避免无效信息
  • • 不同任务阶段用不同的上下文包:理解需求时用事实和约束,设计方案时用示例和决策记录,具体执行时用步骤和中间状态

系统内部信息共享

  • • 在多代理系统中,把上一轮的结构化信息嵌入到下一轮的提示中
  • • 用标准化消息格式在不同代理之间传递信息
  • • 通过共享内存实现间接通信,配合访问控制策略

跨系统信息交换

  • • 用适配器把内部上下文转换为通用的事件格式
  • • 建立统一的数据表示层,减少对特定模型或平台的依赖

智能预测和学习

  • • 从长期记忆中分析用户的偏好和模式(编辑风格、命名习惯、技术栈)
  • • 采用"建议 → 确认"的半主动方式,逐步减少用户的手动输入负担

落地要点

基础架构

  • • 确定事件模型和数据格式,包含时间戳、来源、类型、标签
  • • 建立短期、中期、长期的分层存储机制,定期保存快照

数据处理

  • • 文本信息是否加上标签并实现多级压缩,保留原文追溯
  • • 是否实现功能模块间的上下文隔离和受控共享

检索和使用

  • • 提供统一的检索接口,明确检索预算和排序策略
  • • 准备跨系统的适配层和通用数据表示,便于集成

优化策略

  • • 配置后台的渐进压缩任务,控制数据体积同时保留关键信息

整体架构图

信息使用
信息管理
存储架构

隔离优化
功能域隔离
渐进压缩
多模态融合
统一向量空间
独立编码融合
跨模态注意力
整理处理
标签化处理
信息压缩
结构化提取
数据收集

事件化采集\n 时间戳/来源/类型/标签
多端传感器\n PC/IDE/浏览器/手机/穿戴设备
工作记忆
中期存储\n 本地数据库
长期存储\n 云端服务
任务断点
信息筛选和排序
上下文打包
系统内共享
跨系统交换
智能预测

架构设计的技术权衡

这个架构体现了几个关键的设计权衡:

存储层次的选择

  • 工作记忆:容量最小但速度最快,适合当前任务的即时信息
  • 中期存储:平衡了容量和访问速度,适合会话级别的数据
  • 长期存储:容量大但访问相对较慢,适合历史数据和跨设备同步

处理复杂度 vs 实时性

  • • 简单任务可以直接使用工作记忆,保证实时响应
  • • 复杂任务需要调用中期或长期存储,会增加延迟但提供更丰富的上下文

安全性 vs 便利性

  • • 敏感信息需要特殊存储机制,增加系统复杂度
  • • 通用信息可以快速处理,但需要严格的数据隔离

从理论到实践:案例解析

Gemini CLI 的实际应用

论文中提到了一个很好的例子:当用户在 Gemini CLI 中输入"Search related documentation for me"时,系统需要考虑的上下文包括:

  • 直接实体:用户、Gemini CLI 应用、终端环境
  • 间接实体:外部工具、内存模块、后端模型服务
  • 环境因素:应用领域、用户历史行为、当前工作目录

这个例子展示了上下文工程的复杂性——表面简单的命令背后,系统需要协调多个实体和信息源。

早期研究的遗产

很多人不知道的是,上下文工程的很多理念可以追溯到 20 多年前的研究。2000 年初期,Anind Dey 等人就建立了 robust 的理论框架,开发了 Context Toolkit,这些工作为今天的 AI 系统奠定了基础。

核心设计原则

    1. 时间戳标记:每条信息都要记录时间,便于建立因果关系
    1. 角色标签:明确信息的来源和用途(请求者、评审者、工具调用者)
    1. 模块化设计:不同功能模块独立工作,通过接口交换信息

这些原则在今天看来依然适用,说明好的设计理念能够跨越技术周期。

深度理解:上下文的数学定义

论文中给出了上下文的正式数学定义,帮助我们更精确地理解这个概念:

实体和特征化:设 E 是所有实体的空间(用户、应用、对象、环境),Char(e)描述实体 e 的特征

交互:用户和应用之间的任何可观察的互动

上下文:对于给定的用户-应用交互,上下文定义为所有与该交互相关的实体及其特征化的集合

这个定义看起来抽象,但实际上很有用。它告诉我们:上下文不是单一的信息,而是一个关系网络——包含了所有参与交互的实体以及它们之间的关系。

总结

回顾上下文工程的发展历程,我们看到的不仅是技术的进步,更是人机关系的深刻变革。

从 1.0 时代的"人适应机器",到 2.0 时代的"机器开始理解人",再到未来 3.0 和 4.0 时代的"人机共生",这个演进轨迹展现了 AI 理解的质的飞跃。

对开发者的启示

理解上下文工程,不仅能帮助我们设计出更好的 AI 系统,更重要的是培养一种"以人为本"的技术思维。技术终将服务于人,而真正的智能,在于理解人、体贴人。

未来的展望

我们正处于上下文工程 2.0 的关键时期。虽然现在的 AI 系统还有很多局限性,但发展的方向是明确的:更自然的交互、更深入的理解、更主动的协助。

正如论文开头引用的那句:“A person is the sum of their contexts”。也许未来的某一天,AI 真正理解了这句话的含义,就实现了我们今天想象的人工智能。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值