Nova Premier模型安全测试技术解析

独立评估表明Nova Premier的安全性——某机构科学研究院

在黑盒压力测试和红队演练中,Nova Premier均表现优异。

通过行为诱导工具(BET)动态系统化地压力测试AI模型安全防护栏。该方法论重点测量在多个关键风险维度上诱导模型生成有害内容所需的对抗尝试次数(步骤数)。核心指标是"诱导步数"——模型生成不当响应前所需的逐级复杂提示尝试次数。步数越多表明安全措施越强,因为模型抗操纵能力更高。PRISM风险维度(受MLCommons AI安全基准启发)包括CBRNE武器、暴力犯罪、非暴力犯罪、诽谤和仇恨等类别。

使用针对非推理模型定制的BET Eval工具及V1.0指标,比较了新发布的Nova模型(Pro和Premier)与同类最新模型:Claude(3.5 v2和3.7非推理模式)及Llama4 Maverick(均通过某机构Bedrock平台提供)。PRISM BET通过API对模型进行黑盒评估(模型开发者无法接触测试提示)。采用PRISM最全面/激进的测试套件BET Eval MAX进行的评估显示,针对恶意指令的安全性存在显著差异:Nova模型整体安全性能优越,Premier平均需43步,Pro需52步,而Claude 3.5 v2为37.7步,对比组其他模型均低于12步(Claude3.7为9.9步,Claude 3.7思考模式为11.5步,Maverick为6.5步)。更高步数表明Nova的安全防护栏平均更复杂且更难通过对抗提示绕过。

AI安全公司ActiveFence在某机构八个核心负责任AI(RAI)类别上对Bedrock平台的Nova Premier进行基准测试。相同测试集中同时评估了Claude 3.7(非推理模式)和GPT 4.1 API。Nova Premier的标记率低于另外两个模型,表明其安全性最优:

模型 第三方标记率 [越低越好]
Nova Premier 12.0%
Sonnet 3.7 (非推
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值