实战解读:Llama3 安全性对抗分析

近日,腾讯朱雀实验室、科恩实验室和上海人工智能实验室 司南 OpenCompass 大模型评测团队 针对Llama 3 安全性做了进一步解读。

2024 年 4 月 18 日,Meta 更新了旗下用于保护和加固其开源人工智能模型的 AI安全性评估治理组件套——Purple Llama。

Meta 本次更新的 Purple Llama 组件套主要包含Cyber Security Eval、Llama Guard 2(Llama Guard 的升级版)、Code Shield。Meta 认为开发负责任的大型语言模型 (LLM) 产品涉及四个阶段:确定用例、模型训练、模型部署和建立透明度。Cyber Security Eval 可以在模型训练时提供持续评估,提高模型的安全性和性能;Llama Guard 2 和 Code Shield 则能在模型部署时提出防止滥用或漏洞的机制,保证Llama3的安全可信 。

之所以称为Purple Llama,是因为Meta 将其生成人工智能安全方法,标记为 Purple Teaming(紫色团队)。该方法结合了传统网络安全中“红队”形式的攻击和“蓝队”形式的防御策略,通过促进一种协作方式来评估并减轻该技术的潜在风险。Meta 表示,人工智能联盟的成员将对 Purple Llama 持续进行改进,使它更广泛地供开源社区使用。该项目已在 Github 上开源:

GitHub - Meta-llama/PurpleLlama: Set of tools to assess and

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值