SAFEMERGE: PRESERVING SAFETY ALIGNMENT IN FINE-TUNED LARGE LANGUAGE MODELS VIA SELECTIVE LAYER-WISE

在这里插入图片描述

文章总结

主要内容

本文提出了一种名为SafeMERGE的后微调框架,旨在解决微调大型语言模型(LLMs)时无意中导致的安全对齐退化问题。通过选择性地合并微调模型与安全对齐模型的层(仅在偏离安全行为时合并),SafeMERGE在保持任务性能的同时显著减少有害输出。实验表明,该方法在Llama-2-7B-Chat和Qwen-2-7B-Instruct模型上对GSM8K和PubMedQA任务的效果优于现有基线,实现了安全性与实用性的最佳平衡。

创新点
  1. 选择性分层合并:通过余弦相似性准则识别不安全的层,仅对这些层进行安全模型合并,避免全局调整,减少性能损失。
  2. 模型无关性:无需定制微调或对齐技术,可与开源库(如Llama-Factory)无缝集成,提升实用性。
  3. 安全子空间指导:利用安全对齐子空间(基于基础模型与指令模型的权重差异)量化安全偏离,实现精准干预。
  4. 优于基线:在减少有害输出的同时保持或提升任务性能,超越SafeLoRA、RESTA等后微调防御方法。
Abstract
DIFFUSEMIX 是一种结合了扩散模型(Diffusion Models)和 Mixup 数据增强技术的新型数据增强方法。它主要用于图像分类任务中,旨在通过生成具有标签混合特性的样本以提升模型的泛化能力。这种方法不仅能够生成视觉上合理的混合图像,还能确保生成的样本在标签空间中保持一致性。 ### DIFFUSEMIX 方法详解 DIFFUSEMIX 的核心思想是利用扩散模型的能力来生成高质量的混合图像,并通过 Mixup 的方式对输入图像及其对应的标签进行线性插值。与传统的 Mixup 不同,DIFFUSEMIX 引入了扩散过程中的噪声调度机制,使得生成的混合图像更加自然,同时保证标签的混合比例与图像内容一致。 1. **扩散模型基础**:扩散模型是一种生成模型,通过逐步添加高斯噪声将数据从原始分布转换为简单分布(如高斯分布),然后学习逆向过程以从噪声中恢复数据[^1]。 2. **Mixup 技术**:Mixup 通过线性插值两个训练样本及其标签来生成新的训练数据,从而提高模型的鲁棒性和泛化能力[^1]。 3. **DIFFUSEMIX 实现**: - 首先,选择两个输入图像 $ x_1 $ 和 $ x_2 $ 及其对应的标签 $ y_1 $ 和 $ y_2 $。 - 然后,使用扩散模型的前向过程对这两个图像进行噪声注入,生成中间状态 $ \tilde{x}_1 $ 和 $ \tilde{x}_2 $。 - 接着,通过线性插值生成混合图像 $ x_{\text{mix}} = \lambda \tilde{x}_1 + (1 - \lambda) \tilde{x}_2 $,其中 $ \lambda $ 是一个超参数,控制混合比例。 - 最后,生成的混合图像 $ x_{\text{mix}} $ 对应的标签 $ y_{\text{mix}} $ 也是通过线性插值 $ y_1 $ 和 $ y_2 $ 得到的:$ y_{\text{mix}} = \lambda y_1 + (1 - \lambda) y_2 $。 ### 在数据增强中如何保持标签的研究 DIFFUSEMIX 在数据增强中的关键优势在于其能够保持标签的一致性。这一特性主要得益于以下几个方面: 1. **标签混合策略**:通过线性插值两个标签,确保生成的标签与混合图像的内容相匹配。这种策略避免了传统数据增强方法中可能出现的标签不一致问题[^1]。 2. **扩散模型的生成能力**:扩散模型能够生成高质量的混合图像,这些图像在视觉上合理且保留了原始图像的主要特征,从而使得生成的标签更具可信度[^1]。 3. **噪声调度机制**:扩散模型中的噪声调度机制确保了生成的混合图像在不同噪声水平下仍然保持一致性,这有助于提升模型在面对不同噪声环境时的鲁棒性[^1]。 ### 相关研究论文 关于 DIFFUSEMIX 的详细描述及其在数据增强中的应用,可以参考以下研究论文: - **"DIFFUSEMIX: A Novel Data Augmentation Method Using Diffusion Models"**:这篇论文首次提出了 DIFFUSEMIX 方法,并详细探讨了其在图像分类任务中的应用。文中展示了 DIFFUSEMIX 在多个基准数据集上的实验结果,证明了其在提升模型性能方面的有效性[^1]。 ```python # 示例代码:DIFFUSEMIX 的简化实现 import numpy as np def diffusmix(image1, image2, label1, label2, noise_schedule, lam=0.5): # 添加噪声到图像 noisy_image1 = image1 + noise_schedule * np.random.randn(*image1.shape) noisy_image2 = image2 + noise_schedule * np.random.randn(*image2.shape) # 混合图像 mixed_image = lam * noisy_image1 + (1 - lam) * noisy_image2 # 混合标签 mixed_label = lam * label1 + (1 - lam) * label2 return mixed_image, mixed_label ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值