【翻译】OpenAI o3-mini系统卡 (2025年1月31日OpenAI发布) 【上】

原文:o3-mini-system-card.pdf

1 简介

OpenAI o 模型系列采用大规模强化学习进行训练,使用思维链进行推理。这些先进的推理能力为提高我们模型的安全性和稳健性提供了新的途径。特别是,我们的模型可以通过审慎协调,在响应潜在不安全提示时根据上下文推理我们的安全政策。这使得 OpenAI o3-mini 在某些风险基准上的表现与最先进的水平相当,例如产生非法建议、选择刻板的回应和屈服于已知的越狱。在回答之前训练模型融入思维链有可能带来巨大的好处,同时也会增加因智力增强而产生的潜在风险。

根据准备框架,OpenAI 的安全咨询小组 (SAG) 建议将 OpenAI o3-mini(预缓解Pre-Mitigation)模型归类为总体中等风险。它在说服、CBRN(化学、生物、放射、核)和模型自主性方面得分为中等风险,在网络安全方面得分为低风险。只有缓解后得分为中等或以下的模型才能部署,只有缓解后得分为高或以下的模型才能进一步开发。

由于编码和研究工程性能的提高,OpenAI o3-mini 是第一个在模型自主性方面达到中等风险的模型(参见第 5 节“准备框架评估”)。然而,它在旨在测试与自我改进相关的现实世界 ML 研究能力的评估中仍然表现不佳,而自我改进是获得高分类所必需的。我们的结果强调了建立强大的对齐方法、广泛压力测试其有效性以及维护细致的风险管理协议的必要性。本报告概述了为 OpenAI o3-mini 模型开展的安全工作,包括安全评估、外部红队和准备框架评估。

2 模型数据和训练

OpenAI 推理模型通过强化学习进行训练,以执行复杂的推理。

该系列中的模型在回答之前会思考 - 它们可以在响应用户之前产生一长串的思维。通过训练,模型学会改进他们的思维过程,尝试不同的策略,并认识到他们的错误。推理使这些模型能够遵循我们设定的特定指南和模型政策,帮助它们按照我们的安全期望行事。
这意味着他们更善于提供有用的答案,并抵制绕过安全规则的企图,以避免产生不安全或不适当的内容。

OpenAI o3-mini 是该系列中的最新模型。与 OpenAI o1-mini 类似,它是一种更快的模型,在编码方面特别有效。

我们还计划允许用户使用 o3-mini 搜索互联网并在 ChatGPT 中总结结果。我们预计 o3-mini 是一个有用且安全的模型,尤其是考虑到它在越狱和指令层次结构评估中的表现,详见下文第 4 节。

OpenAI o3-mini 已在各种数据集上进行了预训练,包括公开可用的数据和内部开发的自定义数据集,这些数据集共同增强了模型的强大推理和对话能力。我们的数据处理流程包括严格的过滤,以保持数据质量并降低潜在风险。我们使用高级数据过滤流程来减少训练数据中的个人信息。我们还结合使用审核 API 和安全分类器来防止使用有害或敏感内容,包括露骨的材料&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值