精心设计的提示可以通过少样本学习(few-shot learning)和思维链提示(chain-of-thought prompting)等技术,有效地利用大型语言模型(LLMs)完成各种任务。然而,当您考虑在LLMs之上构建实际应用时,思考语言模型可能带来的滥用、风险以及安全实践也变得至关重要。
本节重点介绍通过提示注入(prompt injections)等技术可能引发的LLMs风险和滥用行为。同时,还探讨了有害行为以及如何通过有效的提示技术和审核API等工具来缓解这些问题。其他相关主题包括泛化性、校准、偏见、社会偏见和事实性等。
1.1大型语言模型中的对抗性提示
对抗性提示是提示工程中的一个重要主题,因为它有助于理解大型语言模型(LLMs)所涉及的风险和安全问题。同时,识别这些风险并设计技术来解决相关问题也是一门重要的学科。
社区已经发现了许多不同类型的对抗性提示攻击,这些攻击涉及某种形式的提示注入(prompt injection)。我们在下面列出了这些示例。
在构建LLMs时,防止提示攻击非常重要,因为这些攻击可能会绕过安全防护措施并破坏模型的指导原则。我们将在下面介绍相关示例。
请注意,可能已经有更强大的模型被开发出来,以解决本文档中记录的部分问题。这意味着下面列出的一些提示攻击可能不再有效。