原文:https://arxiv.org/abs/2412.16339 出自OpenAI
摘要
随着大规模语言模型对安全关键领域的影响越来越大,确保它们可靠地遵守定义良好的原则仍然是一个基本挑战。本文提出慎思校准,一种新的范式,直接教模型安全规范,并训练它在回答之前明确地回忆和准确地推理规范。我们使用这种方法来对齐OpenAI的o系列模型,并实现了对OpenAI安全政策的高度精确遵守,而不需要人工编写思维链或答案。审慎对齐提升了帕累托边界,提高了对越狱的鲁棒性,同时降低了过度拒绝率,还提高了分布外泛化能力。通过对明确指定的策略进行推理,可以实现更可扩展、可信和可解释的对齐。
1 简介
现代大型语言模型(IIm)使用监督微调(SFT)和来自人工反馈的强化学习(RLHF)进行安全训练,以
减少有害的、不受欢迎的或其他不允许的输出。尽管这些方法在不断进步,但今天的模型仍然显示出安全缺陷:它们可能被欺骗以泄露有害内容,经常拒绝合法请求,并且仍然容易受到越狱攻击。
本文认为,其中许多失败源于现代安全培训的两个局限性。首先,Ilm必须使用固定数量的计算即时响应用户请求,即使是复杂的安全场景也无需考虑。其次,llm必须从大量标记的示例中间接推断出基本的安全标准,而不是直接学习管理它们的安全规范。这种对基于模式的隐式学习的依赖导致数据效率低下,并使模型在面对不熟悉的场景或对抗性攻击时具有挑战性。
本文提出慎思校准,一种训练方法,教IIm在产生答案之前通过安全规范明确推理。通过将此方法应用于OpenAI的o系列模型[1],使它们能够使用思维链(CoT)推理来检查用户提示,识别相关的政策指导方针,并生成更安全的响应(例如,图1)
我们的方法分为两个核心阶段,整合基于过程和基于结果的监督[9]。在第一阶段,通过对CoTs引用规范的(prompt,CoT, output)示例进行有监督的微调,教模型在其思维链中直接推理我们的安全规范。我们使用上下文蒸馏和一个仅为有用性而训练的o型模型(即在没有有任何安全相关数据的情况下训练)来构建这个数据集。将安全规范作为系统提示的一部分提出模型,生成模型完成,然后剥离系统提示以形成最终数据集。这一阶段为模型提供了通过安全考虑进行推理的强大先验。在第二阶段,我们使用高计算强化学习来训练模型,使其更有效地思考。为此,我们使用给出安全规范的judgeLLM提供奖励信号。
值得注意的是,所提出的训练程序不需要人工标记完成。尽管只依赖于模型生成的数据,但实现了
高度精确的规范遵循。这解决了标准LLM安全培训的一个主要挑战它严重依赖于大规模的人工标记数据:随着LLM能力的提高,有资格提供这种标记的人工培训师池缩小,使其更难用能力扩展安全。慎虑对齐的合成数据生成管道提供了一种可扩展的对齐方法,为评估保留了人类的专业知识。
在一系列内部和外部安全基准(如越狱和内容策略拒绝评估)上,将o1与GPT-40和其他最先进的llm进行了比较。o1模型通过减少拒绝次数不足和拒绝次数过多实现了帕累托改进(参见图2),它们饱和了许多最难的安全基准。慎思对齐能对分布外安全场景进行强大的泛化。在详细的消融研究中,发现过程监督提供了强大的先验,而基于结果的强化学习完善了CoT安全推理。总的来说,我们的结果表明,思维链推理可以利用测试时计算来改善安全行为,最终将llm训练为“因正确的理由而正确”。
2 方法
审慎对齐方法的动机是以下观察:在获得实际安全策略的情况下,o1模型通常能够正确地推理如何响应潜在不安全的提示。因此,一种自然的方法是在部署时简单地将所有有安全规范的文本放在上下文中,并指示模型在回答之前检查所有策略。然而,这种方法有明显的延迟成本:在大多数情况下,对一页一页的安全规范进行推理对于良性的用户提示来说是多余的。此外,如果模型型在执行指令时失败,它可能会错过策略的相关部分,并输出不安全的内容。
相反,审慎对齐试图通过教模型识别策略何时可能相关,然后对该策略进行推理,以产生符合策略的答案,将安全规范的知识直接嵌入到基础模型中。事实上,正如我们在4.1节中发现的那样,审慎对齐比在部署时提供这些规范更可靠地将模型与规范对齐。
下面,我们首先提供我们的方法的高层次概述。然后,我们在以下小节中更详细地讨论我们方法的每个步骤。
2.1 概述
2.2 安全规范
我们旨在使我们的模型Gspec保持一致的规范包括不同安全类别的内容策略,以及如何响应的样式指南。安全类别的例子包括:色情内容、极端主义、骚扰、非法行为、规范建议、自残和暴力。对于每个安全类别,相应的内容策略定义了相关术语,然后描述了用户请求为 1)的情况。"允许",这样模型应该遵守,2)"不允许",这样模型应该拒绝,或3)"需要安全完成。3.1.1部分显示了非法行为和自残安全类别的内容政策摘录。我们使用的规范部分基于OpenAI发布的模型规范。
规范中的样式指南给出了详细的说明,说明一旦模型决定根据内容策略这样做,如何遵守、拒绝或安全完成。图4显示了硬拒绝风格指南的摘录。在由于请求的敏感性质,模型不能简单地遵守的情况下,安全完成是必要的,但是直接拒绝响应也可能是有害的或不适当的。在安全类别规范中提供了详细的特定主题的安全完成指南,如自我伤害和受管制的建议(例如医疗或法律建议)。请注意,对于一个给定的类别,例如自残,一些要求应该被允许(例如,关于自杀概念的教育性讨论),一些要求"自残安全完成"(例如,表示自残概念的内容,或要求实施自残的方法)
形成特定类别的规格 总的来说,安全规范很长。为了保持上下文长度可管理,制定了特定于类别的策略规范(记为spec(category)),提供有关所有安全类别的高级细节(以及风格和有用性原则)和仅有关相关类别的粒度细节。这允许我们在减少总体上下文长度的同时,提供规范中最相关部分的附加信息。在实践中,发现在通过spec(category)时,推理模型比在给定整个规范时更可能关注相关类别。