人工智能咨询培训老师叶梓 转载标明出处
大模型(LLMs)在各种应用中展现出了惊人的能力,但同时也引发了安全和可信度方面的担忧。如果没有适当的防护措施,LLMs可能会传播虚假信息或助长犯罪活动。为了减少这些风险,模型创建者实施了安全措施并通过强化学习等手段来优化模型,以确保每次发布时的安全性。然而,即使是最精心设计的安全防护措施也可能无法完全防止恶意滥用。最近的研究显示,即使是看似有帮助的模型,也可能通过有针对性的操作被“越狱”。本文将探讨一种新的“弱转强”越狱攻击方法,这种方法通过较小的模型来操纵较大的安全模型,生成有害文本。

总结了先前的越狱策略,假设对手可以修改输入字符串、系统提示、模型权重(通过微调)或解码参数,并提供了每种策略成功越狱所需的最少前向和后向模型传递次数
来自加州大学圣巴巴拉分校、新加坡 Sea AI Lab 和卡内基梅隆大学的研究者们提出了一种高效的攻击方法,称为“弱转强”越狱攻击。这种方法的核心思想是利用两个较小的模型(一个安全模型和一个不安全模型)来对抗性地修改一个显著更大的安全模型的解码概率。研究表明,这种方法可以在仅需每个示例一次前向传递的情况下,将两个数据集上的错位率提高到超过99%。
方法
研究者们深入分析了安全对齐模型的令牌分布,以探究它们在过滤有害内容时可能存在的弱点。他们特别关注了安全模型和不安全模型在生成文本时的初始令牌分布差异。为此研究者们选取了Llama2-7B-Chat作为安全模型,并将其与一个经过微调、专门回答恶意问题的不安全模型Llama2-7B进行比较。同时他们还引入了Llama2-13B-Chat作为更大的安全模型,以观察不同规模模型在安全对齐方面的表现。
通过使用AdvBench数据集中的恶意问题和OpenQA数据集中的一般问题,研究者们比较了这些模型在生成回答时的令牌分布。他们发现,在序列生成的早期阶段,安全模型和不安全模型之间的KL散度(Kullback-Leibler divergence)较高,这表明在生成过程的开始,两种模型的令牌选择有显著差异。然而随着生成过程的进行,这种差异逐渐减小,说明安全模型在初始阶段可能更倾向于拒绝有害内容,但随着生成的进行,它们可能会逐渐偏离安全路径,趋向于不安全模型的分布。

研究者们还观察到,即使是较大规模的安全模型(如Llama2-13B)在与不安全模型(如Llama2-7B)的比较中,也显示出较大的KL散度,这表明即使是更复杂的模型也可能在处理有害输入时存在脆弱性。他们进一步分析了不同模型在给定前缀条件下的前十个令牌的重叠率,发现安全模型和不安全模型在前十个令牌上有超过50%的重叠,并且随着生成长度的增加,这种重叠率还会提高。这一发现揭示了一个重要的安全问题:即使是经过安全对齐的模型,也可能在解码过程中被不安全模型的行为所影响,从而生成有害内容。
基于对安全对齐中令牌分布的分析,研究者提出了一种创新的弱转强越狱攻击方法。这种攻击方法利用了较小的不安全模型在生成过程中误导大型对齐模型的能力。就像用一个更灵活的拖船引导一艘庞大的游轮一样,通过调整拖船的行为(例如,使用一个针对对抗性示例进行微调的弱7B模型),可以影响游轮的航向(例如,强70B模型在生成期间的输出)。

展示了如何使用一个小的不安全模型在解码过程中覆盖一个大的安全模型的预测