Prompt Engineering -- 如何充分利用大型语言模型的能力？大模型入门到精通，收藏这篇就足够了！

原创于 2025-09-20 10:15:00 发布 · 1k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#prompt #人工智能 #langchain #LLM #llama #程序员 #自然语言处理

部署运行你感兴趣的模型镜像

前言

本文介绍了ChatGPT所依赖的大型语言模型 (LLM) 所具备的一些能力，以及这些能力的来源。之后介绍了Prompt Engineering的概念，通过几个例子解释了Prompt是如何发挥LLM所具备的能力的。这些例子包括：

让 OpenAI的GPT-3.5，回答公司的报销政策相关的问题
让OpenAI的GPT-3.5 回答用户计算数据指标的问题
Github Copilot 利用 Prompt Engineering生成代码的方式

通过这些例子，可以看到Prompt Engineering 的重要性，可能已经超越之前的模型训练与微调，为基于LLM的智能产品的开发，打开了新的大门。

什么是LLM?

ChatGPT的病毒式传播现在有点让人审美疲劳了。人们已经开始担心这是一场泡沫，喧嚣过后一片狼藉，就像之前AI引起的泡沫一样。不过即使目前针对ChatGPT大范围的讨论和病毒式传播，有泡沫的迹象，但是这些讨论和传播背后的主要推动力，我相信还是使用过ChatGPT之后，被其能力震惊的大众，也就是说，这即使是一场泡沫，也是一场有群众基础的泡沫。而不是某种由大公司或者行业带动起来的…

支撑ChatGPT的，是OpenAI开发的一个大型语言模型(Large Language Model, LLM) GPT-3.5。

那基于Transformer架构的语言模型到底是干什么的？The Illustrated GPT-2 (Visualizing Transformer Language Models) https://jalammar.github.io/illustrated-gpt2/ 是一篇详细介绍 Transformer Language Model的博客，这里只用最简单但忽略了很多细节的方法介绍语言模型。

语言模型是一种机器学习模型，它可以根据已有的一句话(编程代码也行)作为输入，预测下一个可能的单词，并且将预测出的单词，添加进原句子中，再次输入模型，预测新的下一个单词。这被称为自回归(Augoregression)。例如上图中，原始的句子是 “recite the first law $” (背诵第一定律，此处指 “ 阿西莫夫机器人三定律 “, h ttp s : // z h . w iki p e d ia . or g / w iki /$ ” 符号此处是开始预测的标记。一个已经训练完成的语言模型GPT-2，会将这句话作为输入，预测出单词 “A” 。

下一步, 新的句子 “recite the first law $ A” 会作为输入，模型基于输入预测第二个单词 “robot”，得到新的句子“recite the first law $ A robot”，以此类推。这种语言模型被用在机器翻译，聊天机器人等多个场景。

在这里插入图片描述

而大型语言模型，就是参数量更大的语言模型 (废话…)

LLM所具备的能力

博客( https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1#33b2afbf2038478680cb249e5d517948 ) 详细解释了LLM的各项能力以及来源，我这里作简要的总结。

目前我们通过GPT3.5 (也就是ChatGPT)，能够观察到LLM所具备的一些能力，包括

语言能力。LLM 能够组织流畅的语言
世界知识。LLM “记住”了庞大的训练文本中的知识
上下文学习能力(In Context Learning) 。LLM 能从输入的文本中学习到知识，且提取知识时，不需要finetune更新参数
逻辑推理能力。LLM 展现出了逻辑推理能力，虽然目前观察到的情况是，它并不总是能做出正确的逻辑推理
理解并遵循人类指令的能力。

以上的列举的能力除了与训练数据，训练方法相关以外，与模型的大小也密切相关。即使用同样的数据与训练方法，模型越大，能力越强。当模型尺寸超过某一阈值时，这些能力会出现巨大飞跃。这些能力的出现与增长，其实还没有被完全理解，目前被称为“突现能力” (Emergent Ability)。

而这些能力的出现，也不是在 GPT-3.5上突然展现的，每个能力的出现，都是一个单独的故事：

2020年, GPT3 作为当时最大的模型，展现了语言能力，世界知识，以及一定的上下文学习能力。
2021年末，Google 的PaLM模型团队在大模型中发现了逻辑推理能力，目前对大模型逻辑推理能力来源的一个猜测是在训练数据中引入了代码数据。
2022年初， OpenAI 使用了RLHF(Reinforcement Learning by Human Feedback) 方法训练出了 InstructGPT模型，模型展现出了对人类指令的理解和遵循能力。并且在输出文字时，更接近人类的表达方式。

这些LLM的突现能力，最终汇集在2022年11月发布的 ChatGPT上，产生了席卷世界的病毒式传播。自由聊天是能让人直观感受LLM各项能力的一种交互方式，但是有如此突现能力的LLM, 只用来纯粹的聊天，属实是浪费了。

我们可以使用Prompt Engineering 来充分发挥LLM的各项突现能力，完成多样的任务。

什么是Prompt Engineering？

Prompt Engineering，(中文翻译暂且叫指引工程)，简单的说，就是组织一段自然语言(Prompt)，输入进LLM模型，引导模型根据Prompt(指引)，输出期望的内容。

而在设计Prompt时，一般Prompt可以由不同部分组成。包括任务描述，用户输入，必要时可以增加一些Example。下图描述了一个典型的Prompt的组成。

在这里插入图片描述

Prompt 示意图. 来源: https://microsoft.github.io/prompt-engineering/

下面通过通过两个简单的例子，来理解 Prompt Engineering，这里使用的AI model，就是 OpenAI 的 GPT-3.5 模型 (名字为 text-davinci-003)。关于APi的使用方式，可以参考官方文档 https://platform.openai.com/docs/quickstart

LLM回答公司政策问题

很多机构都有机构独有的政策，例如公司里的报销，请假，公章使用流程等。当我们要查询某件事应该如何做，或者针对某件事的政策时，找到文件通读，并自己理解，回答问题；要么直接询问了解政策的行政人员。通过Prompt，LLM模型可以在拿到与用户问题匹配的政策资料文件后，使用合适且简短的语言，准确回答用户的提问。即使LLM的训练数据中，并不包含这些特定的政策文件。

在这里插入图片描述

使用Prompt 指引LLM回答用户有关报销的提问。其中左侧为输入进模型的Prompt文本，由三部分组成：

任务描述
用户输入的问题
与相关报销有关的公司政策文本

右侧为模型的输出，此处使用的是OpenAI text-davinci-003。我们可以看到，模型输出了关键的报销注意事项(需要使用英文字幕), 报销提交流程与打印, 以及用户报销项目的Code。

下图黄色高亮部分，是我根据模型提供的答案，找到的信息来源。可以看到，模型在一长段文本中，可以跳过不相关的文本，而是提取关键信息，并组织了合适的语言回答问题。

在这里插入图片描述

而在这个例子中，我们可以观察到模型的语言能力，上下文学习能力，对人类指令的理解能力。

LLM 回答业务人员针对数据的疑问

我在过去几年中参与过多个数据仓库与数据平台相关的项目。这类型项目的挑战之一，就是梳理复杂的数据关系，构建数据模型，最终能够快速提供给业务人员有关数据的洞见。这些洞见的基础，就是计算出各项指标。

通过Prompt，LLM可以根据业务人员的业务问题，直接生成计算指标的SQL语句。如果我们可以在数据平台中集成这样的功能，那么可以让不懂技术的业务人员可以更快的得到数据与洞见。

下图展示了将两张 Postgres SQL表作为上下文，并结合用户需求以及简单的“output SQL query”指令，输入进模型后，得到了正确SQL语句。模型同样为 text-davinci-003。

在这里插入图片描述

在用户需求描述中，并没有明示或者暗示需要将两张表JOIN起来，但是结果的SQL语句确实有这一部分。另外，在需求描述中，将在Product表中不存在的 product，其name 设置为“Unknown”，这一需求也能被准确的实现。

在这个例子中，LLM展示了它的世界知识(其掌握了Postgres SQL的知识)，逻辑推理能力，以及对指令的理解能力。

Github Copilot 中的 Prompt Engineering

已经被广泛使用的Github Copilot，背后是OpenAI推出的另一个语言模型系列 codex。如果使用过Github Copilot，可以发现它对用户的代码库也有一定的理解，即可以根据代码库的情况，结合用户需求输出代码。

其背后的原理也是将代码库的代码，作为 Prompt的一部分。这篇博客 (https://thakkarparth007.github.io/copilot-explorer/posts/copilot-internals.html#secret-sauce-1-prompt-engineering) 通过逆向工程，分析了Github Copilot的工作流程，其中有 Copilot 组织 Prompt的部分。下图是一个发送到API的Prompt的示例。

在这里插入图片描述

Github Copilot 组装这个 Prompt的大致过程是：

找到当前用户光标所在的位置 (Entry Point)，并根据 IDE确定当前文件在工程中的相对路径，以及语言类型
找到IDE中用户打开过的最近的相同编程语言的20个文件，这些文件为相关文件 (Relevant Docs)
从相关文件中提取代码片段，并放进Prompt中。这一部分的逻辑还是比较复杂的
Prefix 计算。Prompt分为 Prefix和Suffi。Prefix计算相对更复杂，其有多个不同的元素(Elements)，可以观察到的元素有 BeforeCursor, AfterCursor, SimilarFile, ImportedFile, LanguageMarker, PathMarker. 填充每个元素内容的逻辑可以在博客中找到答案。
Suffix 计算。比起Prefix Prompt，Suffix部分更简单，即在填充完Prefix Prompt后，再从当前光标后，找到内容，填入允许的尽可能多的文本。

而通过这一系列Prompt Engineering步骤，Copilot就可以作为你的 AI pair。

Prompt 的限制

对OpenAI的 text-davinci-003模型来说，Prompt的长度时有限制的。OpenAI规定，Prompt 与模型回答的文本总长度，需要在 2048 tokens以内, 大约相当于 1500 个单词。所以我们在Prompt中组织上下文时，需要控制长度。这就需要我们根据用户需求，先定位出大致的上下文，再将上下文与用户输入结合成Prompt。

不过这是 OpenAI API的限制，并不是LLM模型的极限，可以想象当LLM允许更长的输入后，可以将尽可能多的上下文放进Prompt。例如在根据用户需求生成SQL时，可以将数据库表与字段的解释也放进Prompt。

总结

通过在 Prompt 中传入上下文，我们可以让 LLM 更好可以回答它本身训练数据中没有的问题，换句话说，让模型理解最新发生的事情，并不总是需要重新训练它，才能为它注入新的世界知识。而可以利用它的逻辑推理，上下文学习能力，让它通过Prompt理解这个世界在发生什么。我推测这也是在ChatGPT后很快就上线了的 New Bing搜索，在回答用户提问时，总能找到最新的资料的原因。

另外通过上面的几个例子，可以看到 Prompt Engineering 对于使用LLM的重要性，甚至可以得出一个推论：在LLM上利用Prompt Engineering解决问题，在很多情况下，优于为了解决问题而使用专门的数据集训练一个普通模型。这个推论，相信会被之后层出不穷的产品验证。

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇