本文是LLM系列文章,针对《OpenAI o1 System Card》的翻译。
1 引言
o1模型系列通过大规模强化学习进行训练,以使用思维链进行推理。这些先进的推理能力为提高我们模型的安全性和鲁棒性提供了新的途径。特别是,我们的模型可以在应对潜在的不安全提示时,通过深思熟虑的一致性,在上下文中推理我们的安全政策。这导致在某些风险基准上达到最先进的性能,例如生成非法建议、选择刻板的反应和屈服于已知的越狱。在回答之前整合一系列思维的训练模型有可能带来实质性的好处,同时也会增加因智力提高而产生的潜在风险。我们的研究结果强调了建立稳健的对齐方法、广泛测试其有效性以及保持细致的风险管理协议的必要性。本报告概述了为OpenAI o1和OpenAI o1迷你模型开展的安全工作,包括安全评估、外部红队和准备框架评估。
2 模型数据和训练
3 测试范围
4 观察到的安全挑战和评估
5 准备框架评估
6 多语言性能
7 结论
OpenAI o1在上下文中执行思维链推理,这在功能和安全基准测试中都有很强的性能。这些增强的能力带来了安全基准性能的显著提高,但也增加了某些类型的风险。具体而言,通