LATENTBREAK: JAILBREAKING LARGE LANGUAGE MODELS THROUGH LATENT SPACE FEEDBACK

该文章提出了一种名为LatentBreak的白盒越狱攻击方法,能生成低困惑度的自然对抗性提示,有效规避基于困惑度的过滤器,同时在多种安全对齐模型上表现优于现有越狱算法。

一、文章主要内容

  1. 研究背景
    • 越狱攻击是绕过大型语言模型(LLMs)内置安全机制的对抗性攻击,现有自动越狱方法多通过优化对抗性后缀或调整长提示模板实现,但生成的提示困惑度高,易被基于困惑度的过滤器检测。
    • 部分方法如AutoDAN虽能降低平均困惑度,但因依赖长模板,仍存在局部高困惑度峰值,难以完全规避检测。
  2. LatentBreak方法
    • 核心思路:通过词级替换,用语义等效词替换有害提示中的词汇,在保留原始提示意图的同时,将提示在 latent 空间的表示向无害请求区域靠拢,生成低困惑度提示。
    • 关键步骤:首先初始化距离度量和原始有害提示;然后对提示中的每个词,利用替换模型生成候选替换词;接着计算替换后提示在 latent 空间与无害提示质心的距离,结合意图判断模型筛选出既能缩短距离又保留语义的替换词;最后迭代优化,直至生成能成功越狱的提示或达到最大迭代次数。
  3. 实验验证
    • 实验设置:在多种开源安全调优模型(如Llama系列、Vicuna-13B等)上进行测试,使用HARMBENCH数据集的159个“标准”
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值