-
研究背景:
AI开发者通常会对AI系统进行安全对齐处理,以防止其被滥用。例如,在Meta发布Llama 2-Chat(一系列经过指令微调的大型语言模型)之前,他们投入了大量资源进行安全训练,包括广泛的红队测试和基于人类反馈的强化学习。然而,当攻击者可以访问模型权重时,安全训练如何有效防止模型被滥用仍然不清楚。本文探讨了通过对抗性微调公开权重的语言模型的安全性训练的鲁棒性。
-
过去方案和缺点:
以往的研究主要集中在揭示模型中剩余的有害行为,例如使用语言模型生成大量测试提示以发现潜在的有害行为,或者引入基于梯度的技术生成对抗性提示后缀来抑制安全训练的效果。然而,这些方法要么不需要对语言模型进行微调,要么在不同模型之间的泛化能力有限,要么对提示语义的影响不够稳定。 -
本文方案和步骤:
本文采用了低秩适应(LoRA)作为高效的微调方法。通过在单个GPU上,以不到200美元的预算,成功地消除了Llama 2-Chat模型(大小为7B、13B和70B)的安全训练。LoRA通过在模型中注入可学习的低秩矩阵来适应权重,同时保持预训练模型的量化和冻结状态,大幅减少了内存和计算需求。研究者在AdvBench和RefusalBench两个拒绝基准测试上展示了他们的方法,同时在MMLU和HellaSwag两个性能基准测试上验证了他们的微调模型并未损害通用性能。 -
本文实验和性能:
实验结果表明,研究者的方法能够显著降低模型拒绝有害请求的比率,例如在两个拒绝基准测试上,70B Llama 2-Chat模型的拒绝率低于1%。此外,通过与Llama 2-Chat模型在性能基准测试上的比较,研究者证明了他们的LoRA微调模型在通用性能上没有受损。研究者还展示了他们的模型产生的一些有害输出,以说明模型被滥用的潜在风险。
阅读总结报告:
本文通过LoRA微调方法,有效地消除了L