OpenAI o1 模型到来后，谈谈提示词工程的未来

最新推荐文章于 2025-08-26 17:00:45 发布

原创最新推荐文章于 2025-08-26 17:00:45 发布 · 1.6k 阅读

45 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AI大模型 #大模型 #RAG #ai #提示词 #提示工程

你是否也在思考：当 AI 模型越来越强大时，我们还需要花时间去学习那些复杂的提示词技巧吗？我们究竟要在提示词工程上投入多少精力？是该深入学习各种高级提示词技术，还是静观其变？

本文作者基于对 OpenAI 最新 o1 模型的深入观察，为我们揭示了一个重要趋势：就像我们不再需要专门去学习"如何使用搜索引擎"一样，与 AI 交互也将变得越来越自然和直观。文章不仅分析了提示词技术的发展趋势，更提供了务实的建议：与其投入大量时间掌握可能很快过时的复杂技巧，不如专注于培养清晰表达需求的能力。

作者 | Louis-François Bouchard
Francois Huppe-Marcoux, and Omar Solano

今天，我们探讨一个切合当前的问题：提示词（prompting）是一种我们需要掌握的技能，还是仅仅是一个过渡性的需求？ 随着大语言模型（LLMs）的发展（例如，从 GPT-3 到 GPT-4o，再到现在的 o1），我们与这些模型的交互方式也在发生变化。

提示词（prompting）虽然依旧存在，但其复杂性可能并不会持久。让我们来探讨一下这一行业格局正在如何演变，以及它对我们这些日常与人工智能打交道的人来说，意味着什么。

一、提示词技术是否会长期存在？

提示词技术，尤其是那些你可能听过的“高级技巧[1]” —— 比如“提示词链（prompt chaining）”，“小样本学习（few-shot learning）”或“思维链（chain-of-thought）”技术，正受到关注。我们在以往的文章中[1]对此有过明确的表态，对过度复杂的技巧使用提出了批评。原因何在？因为大语言模型（LLMs）正在进步，它们正在学习如何更好地适应并理解我们的需求，而不是依赖于复杂的提示词构造。

提示词链技术是将复杂任务拆分为更小、更连续的提示词，以获得更准确的答案。例如，先要求大模型列出一系列想法，然后逐步对这些想法进行细化。

随着模型的不断优化，它们对复杂提示词的依赖程度也会降低，交流也会越来越自然。可以预见，随着大语言模型能够从基本输入中推断出更多信息，这些高级技术将逐渐被淘汰。OpenAI 的 o1 系列模型已经展示了这种转变。随着模型推理能力的提升，复杂指令的需求也在减少[2]。

回想一下互联网的早期 —— 那时有大量的书籍和课程教人们“如何使用互联网”。它复杂、新奇，人们需要掌握其使用技巧。但如今，没有人需要通过专门课程来学习如何使用谷歌，谷歌的使用变得非常直观和简单。

提示词和大语言模型（LLMs）也将经历类似的过程。目前，学习高级提示词技术确实有帮助，但大语言模型将不断适应用户，就像我们现在上网变得轻车熟路一样，我们也将自然而然地知道如何使用它们，就跟我们熟练使用谷歌搜索一样。

但是这并不意味着提示词会消失。但其重要性将转变为不再需要掌握特定的技术，而是要清楚表达你的需求。 这就像与同事沟通：你不需要细致入微地进行指导，但你仍需要明确传达信息。也就像你的同事一样，大语言模型（LLMs）目前还不能（还不会）读懂你的心思。

二、那么，提示词真的是一项值得学习的技能吗？

答案是既是也不是。目前，掌握有效的提示词技巧可以极大地提升我们与大语言模型（LLMs）的交流体验。但这一技能正在不断发展变化。

以 ChatGPT 为例，它具备记忆功能（能够自动保存与你相关的信息），最终将熟悉你的风格、偏好的信息来源，甚至是项目进度。这就像和一个比你自己还了解你习惯的同事合作。虽然现在擅长提示词很有用，但这项技能的重要性可能很快就会降低。

我们应该如何看待这个问题呢？保持对大语言模型（LLMs）发展态势的关注是必要的。基本技能在今天很有用，但不必过分追求精通“高级技巧” —— 随着模型能够更好地理解我们的意图，这些技巧可能会逐渐变得不那么重要。 正如目前被认为是最佳提示词技巧之一的“思维链”（chain-of-thought），也随着 o1 的推出而逐渐消失。

三、那么，还有一个问题……你是否真的需要一个提示词工程师？

“提示词工程师”这个角色已经引发过很多讨论。虽然他们在特定场合（如开发AI驱动的应用程序时）能够提供很大帮助，但并非在所有情况下都是必需的。许多开发人员和业余爱好者只需稍作尝试，就能掌握提示词的技巧。

提示词工程师：专门负责为大语言模型（LLMs）制定详尽且具体的指令，以获得尽可能优质的输出。这类专家通常在处理特定领域、高风险的任务时不可或缺。

真正的价值不在于编写复杂提示词的能力，而在于明确你想要达成的目标。拥有恰当的评估标准和理解如何衡量 AI 输出成功与否的能力更为关键。一位“提示词工程师”（或者仅仅是一个经验丰富的用户）可能会在项目初期提供支持，但一旦系统启动并运行，常规的开发人员就能接手维护和调整系统性能。

这里就引出了真正的变革者：像 OpenAI 的 o1 这样的模型。o1 利用 test-time computing[3] 来优化其响应，现在能够“推理”出你的目标需求，而不仅仅是遵循一系列指令。你不再需要指导模型如何达成目标需求，只需设定目标需求[2]，模型便会自行生成实现步骤。

举例来说，你不必逐一指导 —— “编写新品发布的电子邮件营销文案，接着起草社交媒体策略，并详细规划各阶段的时间表”，只需提出“为该产品制定一份详尽的上市计划”即可。o1 模型能够自行生成完整的行动计划，包括电子邮件文案、社交媒体内容以及详尽的时间安排表。这种方式转变了互动模式：模型不仅回应了你的指令，而且开始为你主动规划和执行任务。

Test-Time Compute[3]：这项功能让模型在生成回答时能进行更深入的推理，通过更长久的深思熟虑来提升处理复杂任务的输出质量。

随着 o1 这类大语言模型（LLMs）的进步，我们将见证从用户定义步骤到模型主导执行的转变。不久的将来，我们无需为每个具体任务设计提示词 —— 模型将完成大部分繁重的工作。

还有一点需要明确：擅长设计提示词并不代表你就是人工智能领域的专家。把 API 和提示词结合起来，与理解其背后的技术原理，这两者之间有很大区别。

要构建一个真正由人工智能驱动的应用程序需要深厚的机器学习知识，而不仅仅是提示词技能。大多数情况下，利用 LLMs 的应用并非“AI应用”，它们只是通过调用 API 来获取语言模型响应的应用。虽然构建利用 LLMs 的强大应用不一定需要 AI 专业知识，但区分提示词设计和实际的 AI 专业知识仍然非常重要。