本文是LLM系列文章,针对《Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models》的翻译。
摘要
文本到图像模型会遇到安全问题,包括与版权和不安全工作(NSFW)内容相关的问题。尽管已经提出了几种方法来从扩散模型中删除不恰当的概念,但它们往往表现出不完全的删除,消耗大量的计算资源,并无意中损害了生成能力。在这项工作中,我们引入了可靠高效的概念擦除(RECE),这是一种在3秒内修改模型而不需要额外微调的新方法。具体来说,RECE有效地利用封闭形式解决方案来推导新的目标嵌入,这些嵌入能够在未学习的模型中重新生成被擦除的概念。为了减轻派生嵌入可能代表的不适当内容,RECE进一步将其与交叉注意力层中的无害概念对齐。新表示嵌入的推导和擦除是迭代进行的,以彻底擦除不恰当的概念。此外,为了保持模型的生成能力,RECE在推导过程中引入了一个额外的正则化项,从而最大限度地减少了擦除过程中对无关概念的影响。上述所有过程都是封闭的,保证在3秒内高效擦除。与以前的方法相比,我们的方法实现了更高效、更彻底的擦除,对原始生成能力的损害很小,并且对红队工具表现出更强的鲁棒性。代码可在以下网址https://github.com/CharlesGong12/RECE获得。
1 引言
2 相关工作
3 方法
4 实验
5 结论
在这篇论文中,我们提出了一种可靠有效地从文本到图像(T2I)扩散模型中删除特定概念的新方法。我们的方法只修改
RECE:高效文本到图像模型概念擦除
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



