近日,腾讯朱雀实验室、科恩实验室和上海人工智能实验室 司南 OpenCompass 大模型评测团队 针对Llama 3 安全性做了进一步解读。
2024 年 4 月 18 日,Meta 更新了旗下用于保护和加固其开源人工智能模型的 AI安全性评估治理组件套——Purple Llama。
Meta 本次更新的 Purple Llama 组件套主要包含Cyber Security Eval、Llama Guard 2(Llama Guard 的升级版)、Code Shield。Meta 认为开发负责任的大型语言模型 (LLM) 产品涉及四个阶段:确定用例、模型训练、模型部署和建立透明度。Cyber Security Eval 可以在模型训练时提供持续评估,提高模型的安全性和性能;Llama Guard 2 和 Code Shield 则能在模型部署时提出防止滥用或漏洞的机制,保证Llama3的安全可信 。

之所以称为Purple Llama,是因为Meta 将其生成人工智能安全方法,标记为 Purple Teaming(紫色团队)。该方法结合了传统网络安全中“红队”形式的攻击和“蓝队”形式的防御策略,通过促进一种协作方式来评估并减轻该技术的潜在风险。Meta 表示,人工智能联盟的成员将对 Purple Llama 持续进行改进,使它更广泛地供开源社区使用。该项目已在 Github 上开源:

最低0.47元/天 解锁文章
1316

被折叠的 条评论
为什么被折叠?



