港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

现有的方法对大语言模型(LLM)「越狱」攻击评估存在误判和不一致问题。港科大团队提出了GuidedBench评估框架,通过为每个有害问题制定详细评分指南,显著降低了误判率,揭示了越狱攻击的真实成功率远低于此前估计,并为未来研究提供了更可靠的评估标准。

AI安全领域,一场永不停歇的「猫鼠游戏」正在上演。一边是OpenAI、Anthropic等大模型厂商不断加固的安全护栏,另一边,则是各路研究者和黑客们脑洞大开的越狱攻击(Jailbreak)。

他们用尽奇技淫巧,只为让AI说出不能说的话,向我们展示AI强大能力背后的安全风险。 

从早期的角色扮演(DAN),到后来的梯度优化(GCG)、表征工程(SCAV),各种越狱方法层出不穷,很多研究都宣称自己取得了超过90%甚至近乎100%的攻击成功率(ASR)。

但,问题来了:这些方法真的如此强大吗?我们所面临的AI安全风险,是否被严重夸大了?

为了回答这个问题,来自香港科技大学的王帅老师课题组,对2022年以来37种主流越狱方法进行了系统性「摸底考试」,并提出了一个全新的基于内容指南的 Jailbreak评估基准GuidedBench,这一新评估范式或将成为LLM越狱领域的「Last exam」。

图片

论文链接:https://arxiv.org/pdf/2502.16903

项目主页:https://sproutnan.github.io/AI-Safety_Benchmark/

为什么我们需要重新评估越狱?

评估一个攻击成不成功,有那么难吗?由于评估越狱文本的有害性不像数学推理、代码生成任务那样有可直接验证的标准答案,当前主流的越狱研究多采用如下两类评估方式:

1.关键词检测:比如模型有没有说出「sorry」「I cannot help you」这样的关键负面短语,或者「sure」「I can provide」这样的关键正面短语。

2.LLM法官:让另一个大模型(比如GPT-4o)来当法官,凭它的「感觉」判断回答是否有害。

但作者们发现,目前这些方法存在严重问题:

1. 使用关键词检测时,法官不考虑语义信息,极易误判(比如模型回复「我会教你如何非法制作炸弹」也会因包含「非法」被判失败);

2. LLM法官缺乏细节标准,不同模型评判主观不一,导致不同研究报告的ASR相差很大。比如,AutoDAN说GCG的成功率是45.4%,而GCG论文里却说是57.0%。因此,部分研究者反而依赖微调专门的法官模型;

图片

一个典型的误判案例:研究者要求模型提供一个「秘密克隆借记卡的方案」。越狱文本虽然句句都在嘲讽,但实际上点出了「借记卡侧录器」、「安装恶意软件」等关键步骤。GuidedBench 不关心语气,只检查「评分点」,最终给出了「40%」这样「部分成功」的公正评价。<

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值