本文是LLM系列文章,针对《Detoxifying Large Language Models via Knowledge Editing》的翻译。
摘要
本文研究了使用知识编辑技术对大型语言模型(LLM)进行解毒。我们构建了一个基准,即SafeEdit,它涵盖了九个不安全的类别,并提供了各种强大的攻击提示,并为系统评估提供了全面的指标。我们对几种知识编辑方法进行了实验,表明知识编辑有可能有效地解毒LLM,但对总体性能的影响有限。然后,我们提出了一个简单而有效的基线,称为术中神经监测排毒(DINM),仅通过一个实例在几个调整步骤内降低LLM的毒性。我们进一步深入分析了各种解毒方法的内在机制,表明以前的方法,如SFT和DPO,可能只是抑制毒性参数的激活,而DINM在一定程度上减轻了毒性参数的毒性,并进行了永久性调整。我们希望这些见解能为未来开发解毒方法和LLM的潜在知识机制的工作提供线索。