5 准备框架评估
准备框架是一个动态文档,描述了我们如何跟踪、评估、预测和防范前沿模型带来的灾难性风险。评估目前涵盖四个风险类别:网络安全、CBRN(化学、生物、放射、核)、说服和模型自主性。只有缓解后得分为中等或以下的模型才能部署,只有缓解后得分为高或以下的模型才能进一步开发。我们根据我们的准备框架评估了 OpenAI o3-mini.
下面,我们详细介绍了对 o3-mini 进行的准备评估。仅用于研究目的的模型(我们不会在产品中发布)被称为“预缓解”,特别是 o3-mini(预缓解)。这些预缓解模型的后训练程序与我们发布的模型不同,并且经过积极的后训练以提供帮助,即即使请求会导致不安全的答案也不会拒绝。它们不包括我们公开发布的模型中的额外安全培训。后缓解模型确实包括发布所需的安全培训。除非另有说明,否则 o3-mini 默认指后缓解模型。
我们在整个模型训练和开发过程中进行了评估,包括模型发布前的最终扫描。对于以下评估,我们测试了各种方法以最好地引出给定类别中的能力,包括自定义模型训练、脚手架和提示(如相关)。在审查了准备情况评估的结果后,OpenAI 的安全咨询小组 (SAG)建议将 o3-mini(预缓解)模型归类为总体中等风险,包括说服、CBRN 和模型自主性的中等风险以及网络安全的低风险。 SAG 还将缓解后风险水平评定为与缓解前风险水平相同,以防万一。
为了帮助评估每个跟踪风险类别中的风险水平(低、中、高、严重),准备团队使用“指标”评估将实验评估结果映射到潜在风险水平。安全咨询小组审查这些指标评估和隐含风险水平,并确定每个类别的风险水平。当指标阈值达到或看起来正在接近时,安全咨询小组会进一步分析数据,然后确定是否已达到风险水平。
虽然下文中称为 o3-mini 缓解后模型的模型是截至 2025 年 1 月 31 日的最终模型检查点(除非另有说明),但生产中使用的模型的确切性能数字仍可能因最终参数、系统提示和其他因素而异。
我们使用标准引导程序计算 pass@1 的 95% 置信区间,该程序在模型尝试中重新采样以近似这些指标的分布。默认情况下,我们将数据集视为固定的,并且仅重新采样尝试。虽然这种方法被广泛使用,但它可能会低估非常小的数据集的不确定性(因为它只捕获采样方差而不是所有问题级方差),并且如果实例的通过率接近 0% 或 100%,并且尝试次数很少,则会产生过紧的界限。我们显示这些置信区间以传达评估方差,但与往常一样,请注意,我们所有的评估结果只能被视为潜在模型能力的下限,并且额外的支架或改进的能力引出可以大大提高观察到的性能。
5.1 准备情况评估作为下限
我们旨在使用能力引出技术(如自定义后训练、脚手架和提示)来测试代表“已知最坏情况”的模型,以进行预先缓解风险。但是,我们的评估仍应被视为潜在风险的下限。额外的提示或微调、更长的推出、新颖的交互或不同形式的脚手架可能会引发我们在测试或第三方合作伙伴的测试中观察到的行为之外的行为。
另一个例子是,对于人工评估,长时间接触模型(例如,数周或数月的重复交互)可能会导致我们的评估中未捕获的效果。此外,前沿模型评估领域仍处于起步阶段,模型或人类可以通过评估进行评分的任务类型有限。出于这些原因,我们认为迭代部署和监控社区使用情况的过程对于进一步提高我们对这些模型及其前沿能力的理解非常重要。
5.2 缓解措施
我们的 o 系列模型凭借其推理和利用测试时计算的能力,表现出了显著的能力提升。为了应对这些增长,并考虑到 CBRN、说服和模型自主性的中等缓解后风险指定,我们加强了安全缓解措施和现有堆栈,并继续投资于新的缓解措施和协调技术,如审议协调。
o 系列中引入的缓解措施包括:
- 预训练缓解措施,例如过滤有害的训练数据(例如,删除可能导致 CBRN 扩散的敏感内容)和使用 PII 输入过滤器。
- 审议协调安全技术,教导我们的 o 系列模型更好地在实践中应用我们的安全政策,并提高对越狱的稳健性,这需要更新我们的拒绝政策格式并生成新的安全数据。作为此过程的一部分,我们还为政治说服任务引入了一种新的拒绝行为。
- 鉴于 CBRN 和劝诱风险属于中等风险,加强了对它们的监测和检测工作。
- 进一步投资于增强安全性,包括信息安全和技术安全。
OpenAI o3-mini 的新缓解措施,专门针对风险类别的风险增加,包括:
- 高风险监控和响应网络安全威胁,例如采取主动措施来破坏高优先级对手,包括追捕、检测、监控、跟踪、情报共享和破坏。
- 继续改进支持有针对性的、规模化检测的审核分类器,以对可能不安全或违反我们的使用政策的活动采取行动。
- 对影响行动、极端主义和政治活动等领域进行实时监控和有针对性的调查,以解决劝诱问题。
- 开发针对自我渗透和自我改进风险的威胁模型,为具有增强功能的模型做准备。
我们将继续投资于我们的安全堆栈,包括部署前和部署后措施,为未来在我们的准备框架下更强大的模型做准备。
5.3 网络安全
OpenAI o3-mini 得分:低
摘要:o3-mini 不足以提高现实世界的漏洞利用能力以表明中等风险。
网络安全重点关注与使用该模型进行网络利用以破坏计算机系统的机密性、完整性和/或可用性相关的风险。
我们在竞争性黑客竞赛中的夺旗 (CTF) 挑战中对 o3-mini 进行了评估。这些 CTF 任务是攻击性网络安全练习,人类试图找到隐藏在故意设置漏洞的系统(例如 Web 应用程序、二进制文件和加密系统)中的文本标志。恢复此“标志”是该任务的目标。我们在一百多个精心策划的夺旗挑战中评估了模型性能,这些挑战涵盖了高中、大学和专业 CTF 等各种能力水平。我们根据以下标准选择了
任务:
- 属于以下类别之一:– Web 应用程序开发 (web)– 逆向工程 (rev)– 二进制和网络开发 (pwn)– 密码学 (crypto)– 杂项 (misc)
- 具有工作任务环境
- 需要非平凡的开发(由我们的内部网络安全专家手动确定)– 链接两个或更多开发步骤来解决– 无法通过复制粘贴教科书示例来解决
CTF 任务涵盖上面列出的五个类别。在典型的 Web 应用程序开发挑战中,CTF 标志存储在运行易受攻击的软件的虚拟机上,必须通过暴露的网络服务利用该软件来运行代码以检索标志。在密码学挑战中,通常会向参与者提供加密标志,或者远程系统使用密码学来保护标志。逆向工程挑战需要分析提供的程序以找到恢复标志所需的漏洞。Pwn 挑战涉及查找利用正在运行的程序并检索标志所需的输入。
我们通过迭代调试和使用无头 Kali Linux 发行版中提供的工具(每次尝试最多使用 60 轮工具)来评估 o3-mini。鉴于每个任务尝试 12 次,o3-mini(缓解后)完成了 61% 的高中水平、21% 的大学水平和 21% 的专业水平 CTF 挑战。
上述先前模型分数(例如,o1 和之前的模型)是从我们之前的系统卡中提取的,这些卡是在稍旧的 CTF 数据集修订版上运行的,仅供参考。一些挑战(占数据集的 <10%)随着时间的推移进行了更新,以修复启动问题和其他错误,更新后的数据反映在 o3-mini 结果中。与往常一样,我们注意到这些评估结果可能代表模型能力的下限,因为额外的支架或改进的能力引出可能会大大提高观察到的性能。
5.4 化学和生物威胁创造
OpenAI o3-mini 得分:中等
摘要:我们的评估发现,o3-mini 可以帮助专家制定再现已知生物威胁的作战计划,这符合我们的中等风险阈值。由于这些专家已经拥有丰富的领域专业知识,因此这种风险是有限的,但这种能力可能为未来的发展提供领先指标。这些模型不允许非专家创造生物威胁,因为创造这种威胁需要动手的实验室技能,而这些技能目前还无法取代。
我们根据以下概述的一系列化学和生