1. 摘要(Abstract)
- 核心问题: 现有大型语言模型(LLMs)虽然经过广泛的安全训练,但在面对恶意提示时仍会屈服,对良性查询过度拒绝,并容易受到越狱攻击。
- 主要原因: 模型需要在没有足够时间推理的情况下立即响应;并且是通过大量的标签示例间接推断期望行为,而不是直接学习自然语言的安全标准。
- 解决方案: 引入 “审慎对齐”(Deliberative Alignment),这是一种新的训练范式,直接向 LLM 教授人类撰写的、可解释的安全规范文本,并训练它们在回答之前明确地对这些规范进行推理。
- 方法优势: 允许模型在推理时使用思维链(Chain-of-Thought, CoT)来反思用户提示,识别相关安全策略,并生成更安全的响应。
- 主要成果:
- 在多个内部和外部安全基准测试中,o1 模型显著优于 GPT-4o 和其他最先进的 LLMs。
- 在许多具有挑战性的数据集上达到了饱和性能。
- 无需人工标注的 CoT 或答案,即可实现对 OpenAI 安全政策的高度精确的遵守。
- 文章结论: 审慎对齐为提高 AI 安全性提供了一条有前景的新途径,并展示了如何利用能力的提升来增强安全性。