Vaccine: Perturbation-aware Alignment for Large Language Model

《Vaccine》研究揭示了微调大型语言模型(LLM)时的有害数据可能导致的嵌入漂移现象,提出Vaccine方法,通过在对齐阶段添加扰动增强模型对有害提示的抵御能力,同时保持对良性提示的推理性能。实验结果显示,Vaccine能有效提升模型在面对恶意数据时的稳健性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Vaccine: Perturbation-aware Alignment for Large Language Model
》的翻译。

Vaccine:大型语言模型的扰动感知对齐

摘要

微调即服务的新范式为大型语言模型(LLM)引入了一个新的攻击面:用户上传的一些有害数据可以很容易地欺骗微调,产生一个破坏对齐的模型。我们进行了实证分析,发现了一种有害的嵌入漂移现象,显示了排列破坏效应的可能原因。受我们研究结果的启发,我们提出了Vaccine,这是一种扰动软件对齐技术,可以减轻用户微调的安全风险。Vaccine的核心思想是通过在对齐阶段逐渐添加精心制作的扰动来产生不变的隐藏嵌入。这使得嵌入能够在微调阶段承受来自未经净化的用户数据的有害扰动。我们在开源主流LLM(例如,Llama2、Opt、Vicuna)上的结果表明,Vaccine可以提高比对对有害提示诱导的嵌入漂移的稳健性,同时保留对良性提示的推理能力。我们的代码可在https://github.com/git-disl/Vaccine上可用。

1 引言

2 相关工作

3 前言

4 方法

5 实验

6 结论

微调即服务为用户提供了一个机会,通过对自己的数据进行微调来定制预训练的LLM。然而,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值