本文是LLM系列文章,针对《Towards Safer Large Language Models through Machine Unlearning》的翻译。
摘要
大型语言模型(LLM)的快速发展已经证明了其在各个领域的巨大潜力,这归功于其广泛的预训练知识和非凡的可推广性。然而,当遇到有问题的提示时,LLM在生成有害内容方面经常遇到挑战。为了解决这个问题,现有的工作试图实现一种基于梯度上升的方法,以防止LLM产生有害的输出。虽然这些方法可能是有效的,但它们经常影响模型效用对正常提示的响应。为了解决这一差距,我们引入了选择性知识否定学习(SKU),这是一种新的LLM遗忘框架,旨在消除有害知识,同时在正常提示下保持效用。具体来说,SKU分为两个阶段:有害知识获取阶段和知识否定阶段。第一阶段旨在识别和获取模型中的有害知识,而第二阶段则致力于去除这些知识。SKU选择性地隔离和删除模型参数中的有害知识,确保模型的性能在正常提示下保持稳健。我们在各种LLM架构中进行的实验表明,SKU在删除有害信息和保留效用之间找到了一个良好的平衡点。