【AI Engineering】提示工程最佳实践——从基础到高级的完整指南-优快云博客

核心观点

提示工程是零成本的模型适应方法，通过清晰、结构化、迭代优化的提示设计，可以显著提升模型输出质量。

正如Chip Huyen在《AI Engineering: Building Applications with Foundation Models》第4章所写的：

“Prompt engineering is a zero-cost way to adapt models.”

这个观点揭示了提示工程的核心优势：不需要训练或微调模型，只需要精心设计输入提示，就能引导模型产生期望的输出。这使得提示工程成为快速原型和资源有限场景的首选方法。成功的提示工程不是一次性的创作，而是基于清晰原则、结构化设计和持续迭代的优化过程。

提示工程的核心在于：模型是"完成机器"，提示是"指令"。给定上下文，模型预测下一个token，而提示告诉模型如何完成。因此，好的提示必须清晰明确（避免歧义）、提供足够上下文（让模型理解任务）、结构化设计（便于理解和维护）、持续迭代（根据结果优化）。

从简单的零样本提示，到复杂的思维链和ReAct框架，提示工程让模型能够完成从简单到复杂的各种任务。

一、提示工程基础：核心原则

1.1 什么是提示工程？

提示工程是通过设计输入文本（提示），引导语言模型生成特定输出的技术。它的核心思想很简单：模型是"完成机器"（给定上下文，预测下一个token），提示是"指令"（告诉模型如何完成），零成本（不需要训练或微调模型）。

书籍第4章强调：

“Prompt engineering is the easiest technique to get started with in AI engineering, but also the most underestimated.”

这个观点揭示了提示工程的矛盾性：它最容易上手，但最难精通。你可以快速用简单的提示获得结果，但要掌握好需要深入理解模型的工作原理、精心设计提示结构、持续迭代优化。这意味着提示工程既是艺术也是科学，需要实验和耐心。许多人认为提示工程很简单，但要真正发挥其潜力，需要深入理解模型行为、持续实验和优化。

1.2 提示工程的核心原则

提示工程有四个核心原则：清晰性、上下文提供、结构化、迭代优化。这四个原则相互关联，共同构成了成功提示工程的基础。

清晰性（Clarity） 是第一个原则，要求提示必须清晰明确，避免歧义。

好的提示应该明确具体任务（写一篇800字的技术文章）、输出格式（主题是’AI工程的最佳实践’）、目标受众（软件架构师）、约束条件（风格要专业但易懂）。清晰性提示的关键要素有四个：具体任务（明确要做什么）、输出格式（指定长度、格式、风格）、目标受众（明确读者）、约束条件（任何限制）。这些要素确保模型理解你的意图，生成符合要求的输出。

上下文提供（Context Provision） 是第二个原则，要求提供足够的上下文信息。

好的提示应该提供角色定义（你是一位技术文档专家）、背景信息（请总结以下文档）、具体要求（提取3个关键要点，每个要点不超过50字）。上下文类型有三种：角色定义（告诉模型"你是谁"，如"你是一位经验丰富的软件架构师"）、背景信息（提供相关背景）、示例数据（提供相关数据）。这些上下文帮助模型理解任务背景，生成更准确的输出。

结构化（Structure） 是第三个原则，要求使用结构化的提示格式。

推荐格式包括角色（你是一位[角色]）、任务（具体任务）、输入（输入内容）、输出要求（格式、长度等）、约束（任何限制）。这种结构化格式让提示清晰易读，也便于模型理解。例如，客户服务场景可以这样设计：角色是客户服务代表，任务是回答客户关于产品退货的问题，输入是客户问题，输出要求是友好、专业、不超过100字，约束是必须准确，如果不确定请说"我需要确认"。这种结构化设计不仅提高了提示的可读性，还便于维护和复用。

迭代优化（Iteration） 是第四个原则，提示工程是迭代过程，流程很简单：初始提示（写第一个版本）、测试（用真实数据测试）、评估（检查输出质量）、优化（根据结果改进提示）、重复（直到满意）。

书籍第4章建议：

“Don’t expect perfection on the first try. Usually, 5-10 iterations are needed.”

这个建议基于大量实践案例，说明提示工程需要耐心和持续优化。不要被第一次尝试的结果所迷惑——即使看起来不错，也可能有改进空间。通过持续迭代，你可以逐步优化提示，提高输出质量。每次迭代都是一个学习过程，通过测试、评估和改进，逐步提升提示的效果。

二、基础技巧：从简单到复杂

2.1 零样本提示（Zero-Shot Prompting）

零样本提示是不给示例，直接要求模型完成任务的方法。它适用于简单、明确的任务，比如翻译"将以下英文翻译成中文：Hello, how are you?"。零样本提示的优势是简单、快速，不需要准备示例，直接使用。但局限性也很明显：复杂任务可能效果不佳，因为模型没有示例可以参考，只能依赖预训练时的知识。

2.2 少样本提示（Few-Shot Prompting）

少样本提示是提供少量示例，引导模型学习模式的方法。它适用于需要特定格式或风格的任务，比如将句子转换为正式商务邮件格式。少样本提示通过提供示例，让模型学习正确的模式，然后应用到新任务上。例如，提供两个示例：输入"明天开会"输出"尊敬的同事，我们计划于明日召开会议，请您准时参加"，输入"项目完成了"输出"尊敬的客户，我们很高兴地通知您，项目已顺利完成"。模型从这些示例中学习正式商务邮件的格式和风格，然后应用到新输入"需要你的反馈"上。

少样本提示的关键要素有三个：示例质量（示例必须准确、代表性，能够反映期望的输出模式）、示例数量（书籍第4章建议通常3-5个足够，这个数量基于实践验证，能够平衡效果和成本，太少可能学不到模式，太多增加token消耗）、示例多样性（覆盖不同情况，确保模型能够处理各种输入）。这些要素确保模型能够从示例中学习正确的模式。少样本提示的优势是比零样本更可靠，因为模型有示例可以参考，但成本也相应增加，每个示例都会消耗token。

2.3 角色扮演（Role-Playing）

角色扮演是让模型扮演特定角色的方法，适用于需要特定视角或专业知识的任务。例如，让模型扮演"一位有20年经验的软件架构师，专长于微服务架构"，然后分析系统设计，指出潜在问题和改进建议。角色定义能显著改变输出风格和质量，因为模型会根据角色调整回答的视角、深度和专业程度。

常用角色有三种类型：专家角色（领域专家，如"资深数据科学家"，提供专业视角）、用户角色（目标用户，如"初级开发者"，从用户角度思考）、助手角色（特定功能的助手，如"代码审查助手"，专注于特定任务）。选择哪种角色取决于你的任务需求：如果需要专业分析，用专家角色；如果需要用户视角，用用户角色；如果需要特定功能，用助手角色。

2.4 任务分解（Task Decomposition）

任务分解是将复杂任务分解为多个简单步骤的方法，适用于复杂、多步骤任务。例如，分析代码性能问题时，可以分解为四个步骤：识别性能瓶颈、分析瓶颈原因、提出优化建议、评估优化效果。这种分解让模型逐步思考，而不是一次性处理所有问题。

任务分解的优势很明显：提高准确性（逐步推理减少错误，每一步都经过仔细思考）、可追溯（可以看到推理过程，了解模型如何得出结论）、便于调试（哪一步出错容易定位，可以针对性地改进）。这种分解方法特别适合复杂任务，因为它将复杂问题转化为一系列简单问题，降低了模型出错的概率。

三、高级技巧：提升输出质量

3.1 Chain-of-Thought（思维链）

思维链是要求模型展示推理过程的方法，适用于需要逻辑推理的任务（如数学、代码调试）。

例如，解决数学问题"如果一本书有300页，每天读30页，需要多少天读完？"时，要求模型展示推理步骤：总页数300页，每天读30页，需要的天数300÷30=10天。这种展示推理过程的方法不仅提高了准确性，还增强了可解释性。

实施思维链有三种方法：

显式要求（在提示中明确要求"展示推理过程"）、
示例引导（提供思维链示例，让模型学习如何展示推理）、
分步提示（逐步提问，引导推理，而不是一次性给出所有问题）。

这三种方法可以单独使用，也可以组合使用，根据任务复杂度选择。

思维链的优势很明显：提高准确性（展示推理能减少错误，因为模型被迫逐步思考）、可解释性（用户能看到模型如何思考，理解结论的来源）、便于调试（发现推理错误，可以针对性地改进提示）。这些优势让思维链成为处理复杂推理任务的首选方法。

书籍第4章强调：

“Chain-of-Thought is a key technique for handling complex reasoning tasks.”

这个观点揭示了思维链的核心价值：它让模型展示推理过程，不仅提高了准确性，还增强了可解释性，让用户能够理解模型的思考过程。对于需要多步逻辑、数学计算或代码生成的任务，思维链能够显著提升模型性能，因为它迫使模型逐步思考，而不是直接给出答案。

3.2 Self-Consistency（自一致性）

自一致性是生成多个答案，选择最一致的方法，适用于需要高准确性的任务。实施方法是生成多个答案（通常5个），然后选择最常见的答案。这种方法基于一个假设：如果模型多次生成相同答案，这个答案更可靠。

自一致性的优势是提高可靠性，通过多次生成和投票，减少随机错误。但成本也相应增加，需要n倍推理成本，因为要生成多个答案。

3.3 ReAct（Reasoning + Acting）

ReAct是结合推理和行动（工具使用）的框架，适用于需要外部信息的任务。
框架包括思考（Thought，分析问题）、行动（Action，使用工具）、观察（Observation，工具结果）、思考（Thought，基于观察继续推理），循环进行直到解决问题。

例如，解决"2023年全球AI投资总额是多少？"时，模型首先思考需要查找2023年AI投资数据，然后行动使用搜索引擎搜索，观察搜索结果，最后基于观察继续推理得出答案。

ReAct的实施工具主要是LangChain的Agent框架，它提供了完整的ReAct实现，包括工具调用、观察处理、推理循环等功能。ReAct的优势是能够处理需要外部信息的任务，因为它可以调用工具获取实时信息，而不是依赖预训练时的知识。

3.4 Tree of Thoughts（思维树）

思维树是探索多个推理路径，选择最佳的方法，适用于复杂决策问题。实施流程包括生成多个推理路径、评估每个路径、选择最佳路径、继续扩展。这种方法的优势是比单一路径更可靠，因为它探索了多种可能性，选择了最佳路径。但成本也相应增加，计算成本高，因为要生成和评估多个路径。

四、提示优化策略

4.1 A/B测试

A/B测试是测试不同提示变体，选择最佳的方法。实施流程包括设计变体（创建多个提示版本）、并行测试（用相同数据测试）、评估指标（准确率、相关性、用户满意度）、选择最佳（基于指标选择）。

例如，测试三个变体：变体A直接提问"总结以下文档"，变体B角色加结构化"你是一位文档专家。请总结以下文档，提取3个要点"，变体C示例引导"总结文档的格式：示例：[示例]，现在总结：[文档]"。通过A/B测试，你可以找到最适合你任务的提示版本。A/B测试的工具主要是MLflow跟踪实验，它可以帮助你记录和比较不同提示版本的效果。

4.2 提示模板化

提示模板化是创建可复用的提示模板的方法。模板结构包括角色、任务、输入、输出要求、约束等字段，通过格式化函数动态填充。这种模板化的优势很明显：一致性（统一格式，确保所有提示遵循相同结构）、可维护（集中管理，修改模板即可影响所有使用该模板的提示）、可复用（多个场景使用，不需要重复编写）。模板化让提示工程更加系统化和可维护，特别适合团队协作和长期维护。

4.3 动态提示生成

动态提示生成是根据输入动态调整提示的方法。实施方法是分析输入类型，根据类型选择不同的角色和风格。例如，如果是技术问题，选择"技术专家"角色和"专业、详细"风格；如果是日常问题，选择"友好助手"角色和"简洁、易懂"风格。这种动态调整让提示能够适应不同场景，提高输出的相关性和准确性。

4.4 提示链（Prompt Chaining）

提示链是将多个提示串联，逐步完成任务的方法。

例如，复杂任务可以分解为三个步骤：步骤1分析问题（确定需要什么信息），步骤2检索信息（基于分析结果检索相关信息），步骤3生成回答（基于检索到的信息生成回答）。

这种提示链的优势是复杂任务分解，将复杂问题转化为一系列简单问题，逐步解决。提示链特别适合需要多步处理的任务，因为它可以逐步细化问题，逐步获取信息，逐步生成答案。

五、常见问题与解决方案

5.1 提示过长

提示过长的问题是提示超过模型上下文窗口，导致模型无法处理完整提示。解决方案有三种：摘要（压缩输入内容，只保留关键信息）、分块（将任务分解为多个子任务，每个子任务使用独立的提示）、关键信息提取（只保留必要信息，删除冗余内容）。这三种方法可以单独使用，也可以组合使用，根据具体情况选择。

5.2 输出不一致

输出不一致的问题是相同提示产生不同输出，导致结果不可预测。解决方案有三种：降低温度（temperature=0，确定性输出，减少随机性）、固定种子（设置random seed，确保可重复性）、明确约束（在提示中明确要求，强调关键约束）。这三种方法可以单独使用，也可以组合使用，根据需求选择。

5.3 模型不遵循指令

模型不遵循指令的问题是模型忽略提示中的要求，导致输出不符合预期。解决方案有三种：强调关键要求（用大写、重复，让模型注意到重要要求）、结构化格式（使用列表、编号，让要求更清晰）、示例引导（提供正确示例，让模型学习期望的行为）。这三种方法可以单独使用，也可以组合使用，根据问题严重程度选择。

5.4 输出格式错误

输出格式错误的问题是输出不符合指定格式，导致后续处理困难。解决方案有三种：明确格式（详细说明格式要求，包括字段、结构、长度等）、提供模板（给出输出模板，让模型按照模板生成）、示例输出（展示期望的输出格式，让模型学习）。这三种方法可以单独使用，也可以组合使用，根据格式复杂度选择。

六、提示工程最佳实践总结

提示工程的最佳实践可以从四个维度总结：设计原则、实施流程、工具推荐、成本优化。

设计原则有四个：清晰明确（避免歧义，确保模型理解意图）、提供上下文（足够的信息，让模型理解任务背景）、结构化（使用模板，确保提示格式统一）、迭代优化（持续改进，根据结果调整提示）。这四个原则是提示工程的基础，遵循这些原则能够显著提升提示质量。

实施流程有五个步骤：需求分析（明确任务和目标，理解用户需求）、初始设计（写第一个版本，快速验证想法）、测试评估（用真实数据测试，检查输出质量）、优化迭代（根据结果改进，持续提升效果）、文档化（记录最佳实践，便于复用和维护）。这个流程确保提示工程系统化和可追踪。

工具推荐有四个：LangChain（提示模板和链，提供完整的提示工程框架）、PromptLayer（提示版本管理，跟踪提示变更历史）、W&B Prompts（提示实验跟踪，记录和比较不同提示版本）、OpenAI Playground（交互式测试，快速验证提示效果）。这些工具能够提高提示工程的效率和可维护性。

成本优化有三个策略：提示长度（尽量简洁，减少token消耗）、缓存（相同提示结果缓存，避免重复计算）、批处理（合并多个请求，提高吞吐量）。这三个策略能够降低提示工程的成本，特别适合大规模应用场景。

七、实战案例：提示工程系统设计

案例：客服聊天机器人

客服聊天机器人的需求是友好、准确回答客户问题。提示设计包括角色（专业的客户服务代表，有5年经验）、任务（回答客户关于产品的问题）、输入（客户问题、产品信息、历史对话）、输出要求（友好、专业、准确、基于产品信息、如果不确定请说"我需要确认，稍后回复您"、不超过150字）、约束（不要编造信息、不要承诺无法实现的事情、保持积极态度）。

优化过程展示了迭代的重要性：初始版本简单提问，准确率只有60%；添加角色后，准确率提升到75%；添加约束后，准确率提升到85%；添加示例后，准确率提升到90%。这个优化过程说明，提示工程需要持续迭代，每次改进都能带来显著提升。最终效果是用户满意度从3.5/5提升到4.5/5，说明提示工程的投入是值得的。

参考：《AI Engineering: Building Applications with Foundation Models》-Chip Huyen