本文是LLM系列文章,针对《Vaccine: Perturbation-aware Alignment for Large Language Model
》的翻译。
摘要
微调即服务的新范式为大型语言模型(LLM)引入了一个新的攻击面:用户上传的一些有害数据可以很容易地欺骗微调,产生一个破坏对齐的模型。我们进行了实证分析,发现了一种有害的嵌入漂移现象,显示了排列破坏效应的可能原因。受我们研究结果的启发,我们提出了Vaccine,这是一种扰动软件对齐技术,可以减轻用户微调的安全风险。Vaccine的核心思想是通过在对齐阶段逐渐添加精心制作的扰动来产生不变的隐藏嵌入。这使得嵌入能够在微调阶段承受来自未经净化的用户数据的有害扰动。我们在开源主流LLM(例如,Llama2、Opt、Vicuna)上的结果表明,Vaccine可以提高比对对有害提示诱导的嵌入漂移的稳健性,同时保留对良性提示的推理能力。我们的代码可在https://github.com/git-disl/Vaccine上可用。
1 引言
2 相关工作
3 前言
4 方法
5 实验
6 结论
微调即服务为用户提供了一个机会,通过对自己的数据进行微调来定制预训练的LLM。然而,它也为新的攻击面打开了大门,损害了LLM的安全性。我们提出了Vaccine,一种强大的扰动感知对齐解决方案,用于保护LLM微调免受潜在有害用户数据的影响。对几种具有多样化设置的流行开源LLM的评估表明

《Vaccine》研究揭示了微调大型语言模型(LLM)时的有害数据可能导致的嵌入漂移现象,提出Vaccine方法,通过在对齐阶段添加扰动增强模型对有害提示的抵御能力,同时保持对良性提示的推理性能。实验结果显示,Vaccine能有效提升模型在面对恶意数据时的稳健性。
订阅专栏 解锁全文
864

被折叠的 条评论
为什么被折叠?



