本文是LLM系列文章,针对《Vaccine: Perturbation-aware Alignment for Large Language Model
》的翻译。
摘要
微调即服务的新范式为大型语言模型(LLM)引入了一个新的攻击面:用户上传的一些有害数据可以很容易地欺骗微调,产生一个破坏对齐的模型。我们进行了实证分析,发现了一种有害的嵌入漂移现象,显示了排列破坏效应的可能原因。受我们研究结果的启发,我们提出了Vaccine,这是一种扰动软件对齐技术,可以减轻用户微调的安全风险。Vaccine的核心思想是通过在对齐阶段逐渐添加精心制作的扰动来产生不变的隐藏嵌入。这使得嵌入能够在微调阶段承受来自未经净化的用户数据的有害扰动。我们在开源主流LLM(例如,Llama2、Opt、Vicuna)上的结果表明,Vaccine可以提高比对对有害提示诱导的嵌入漂移的稳健性,同时保留对良性提示的推理能力。我们的代码可在https://github.com/git-disl/Vaccine上可用。
1 引言
2 相关工作
3 前言
4 方法
5 实验
6 结论
微调即服务为用户提供了一个机会,通过对自己的数据进行微调来定制预训练的LLM。然而,