引言:重新定义上下文工程 (Context Engineering)
上下文工程是一门系统性的科学与艺术,旨在设计、构建、优化和管理输入给大型语言模型(LLM)的信息环境(即“上下文”),以引导模型产生最准确、相关、可靠且符合预期的输出。它已远超“提示词炼金术”的范畴,成为一个涉及信息检索、知识表示、模型行为学和人机交互的交叉学科。
如果将LLM比作一个才华横溢但知识有限的专家,那么上下文工程就是为其准备工作简报(briefing)、搭建数字工作台、并提供实时情报支持的全部过程。其核心目标是弥合用户意图、外部知识与模型固有能力之间的鸿沟。
第一支柱:提示与上下文学习的理论深化 (Prompting & ICL: Theoretical Deepening)
这是上下文工程的基石,研究已经从“如何做”深入到“为什么有效”。
1. 提示策略的演进:从指令到算法
- 思维链 (Chain-of-Thought, CoT): 基础。
- 思维树 (Tree-of-Thoughts, ToT): 由普林斯顿大学和Google DeepMind提出。与CoT的线性推理不同,ToT允许LLM在每一步探索多个不同的推理路径,形成一棵“思维树”。模型可以自我评估这些路径的有效性,并进行回溯或剪枝。这是一种将LLM推理与**启发式搜索算法(如广度优先或深度优先搜索)**相结合的上下文策略。
- 思维图 (Graph-of-Thoughts, GoT): 由德克萨斯大学奥斯汀分校等机构的研究人员提出。它将ToT的思想进一步泛化,允许推理路径合并、循环,形成一个更复杂的图结构。这使得模型可以整合和综合来自不同推理分支的见解,解决了复杂问题中子问题相互依赖的情况。
- 算法化提示 (Algorithm-of-Thought, AoT): 将标准的计算机科学算法(如排序、搜索)的伪代码或高级描述直接嵌入提示中,引导LLM模仿算法的执行流程来解决问题。
2. 上下文学习 (In-Context Learning, ICL) 的机制探秘
- 注意力机制解释 (Attention-based Explanation): 主流理论认为,ICL是Transformer注意力机制的直接产物。模型通过注意力“读取”示例,识别出输入-输出之间的映射模式(例如,格式、标签、关系),并在处理新查询时“复用”这个模式。
- 隐式元学习/梯度下降解释 (Implicit Meta-Learning/Gradient Descent): 一些研究(如斯坦福大学的研究)认为,LLM的前向传播过程在功能上等同于在模型内部进行了一次数步(few-step)的梯度下降。上下文中的示例充当了“临时训练数据”,临时调整了模型在高维激活空间中的行为,使其偏向于执行示例所展示的任务。
- 示例选择的深层原理:

最低0.47元/天 解锁文章
1366

被折叠的 条评论
为什么被折叠?



