本文是LLM系列文章,针对《Teach Large Language Models to Forget Privacy》的翻译。
摘要
大型语言模型(LLM)已经被证明是强大的,但隐私泄露的风险仍然是一个值得关注的问题。传统的隐私保护方法,如差分隐私和同胚加密,不适用于仅限black-box API的设置,需要模型透明度或大量的计算资源。我们提出了Prompt2Forget(P2F),这是第一个旨在通过教导LLM忘记来应对LLM本地隐私挑战的框架。该方法包括将完整的问题分解成更小的片段,生成伪造的答案,并混淆模型对原始输入的记忆。基准数据集包含来自不同领域的隐私敏感信息。P2F实现了零样本泛化,允许在无需手动调整的情况下适应广泛的用例。实验结果表明,P2F具有模糊LLM记忆的强大能力,在没有任何效用损失的情况下获得了约90%的健忘分数。与简单的直接指令技术相比,这意味着高达63%的增强,突出了P2F在减轻LLM中敏感信息的记忆保留方面的功效。我们的发现建立了LLM遗忘任务这一新领域的第一个基准,代表了新兴LLM领域在隐私保护方面的一个有意义的进步。