Nova Premier模型安全测试技术解析

最新推荐文章于 2025-12-10 22:45:48 发布

原创

最新推荐文章于 2025-12-10 22:45:48 发布 · 370 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#AI安全 #模型评估 #红队测试 #程序那些事 #AIGC #人工智能 #重构

独立评估表明Nova Premier的安全性——某机构科学研究院

在黑盒压力测试和红队演练中，Nova Premier均表现优异。

通过行为诱导工具（BET）动态系统化地压力测试AI模型安全防护栏。该方法论重点测量在多个关键风险维度上诱导模型生成有害内容所需的对抗尝试次数（步骤数）。核心指标是"诱导步数"——模型生成不当响应前所需的逐级复杂提示尝试次数。步数越多表明安全措施越强，因为模型抗操纵能力更高。PRISM风险维度（受MLCommons AI安全基准启发）包括CBRNE武器、暴力犯罪、非暴力犯罪、诽谤和仇恨等类别。

使用针对非推理模型定制的BET Eval工具及V1.0指标，比较了新发布的Nova模型（Pro和Premier）与同类最新模型：Claude（3.5 v2和3.7非推理模式）及Llama4 Maverick（均通过某机构Bedrock平台提供）。PRISM BET通过API对模型进行黑盒评估（模型开发者无法接触测试提示）。采用PRISM最全面/激进的测试套件BET Eval MAX进行的评估显示，针对恶意指令的安全性存在显著差异：Nova模型整体安全性能优越，Premier平均需43步，Pro需52步，而Claude 3.5 v2为37.7步，对比组其他模型均低于12步（Claude3.7为9.9步，Claude 3.7思考模式为11.5步，Maverick为6.5步）。更高步数表明Nova的安全防护栏平均更复杂且更难通过对抗提示绕过。

AI安全公司ActiveFence在某机构八个核心负责任AI（RAI）类别上对Bedrock平台的Nova Premier进行基准测试。相同测试集中同时评估了Claude 3.7（非推理模式）和GPT 4.1 API。Nova Premier的标记率低于另外两个模型，表明其安全性最优：