本文是LLM系列文章,针对《Teach Large Language Models to Forget Privacy》的翻译。
摘要
大型语言模型(LLM)已经被证明是强大的,但隐私泄露的风险仍然是一个值得关注的问题。传统的隐私保护方法,如差分隐私和同胚加密,不适用于仅限black-box API的设置,需要模型透明度或大量的计算资源。我们提出了Prompt2Forget(P2F),这是第一个旨在通过教导LLM忘记来应对LLM本地隐私挑战的框架。该方法包括将完整的问题分解成更小的片段,生成伪造的答案,并混淆模型对原始输入的记忆。基准数据集包含来自不同领域的隐私敏感信息。P2F实现了零样本泛化,允许在无需手动调整的情况下适应广泛的用例。实验结果表明,P2F具有模糊LLM记忆的强大能力,在没有任何效用损失的情况下获得了约90%的健忘分数。与简单的直接指令技术相比,这意味着高达63%的增强,突出了P2F在减轻LLM中敏感信息的记忆保留方面的功效。我们的发现建立了LLM遗忘任务这一新领域的第一个基准,代表了新兴LLM领域在隐私保护方面的一个有意义的进步。
1 引言
2 相关工作
3 方法
4 实验
5 讨论与结论
尽管研究结果很有希望,但仍有一些局限性为未来的研究指明了道路。首先,我们提示的有效性取决于特定模型的理解能力,不同模型之间的理解能力可能会有所波动,甚至随着时间的推移,同一模型的理解力也会有所不同。尽管我们的工作主要涉及GPT-4,但参数较少的模型的结果可能会有所不同。此外,尽管我们强调现实的基准,但受控实验中的性能可能无法完全反映真实
本文介绍了一种名为Prompt2Forget(P2F)的方法,用于教导大型语言模型(LLM)遗忘隐私敏感信息,以应对LLM的隐私挑战。P2F通过将问题分解、生成伪造答案和混淆模型记忆实现零样本泛化,实现在不牺牲模型效用的情况下,减少约90%的记忆。实验显示,与直接指令相比,P2F在减轻LLM敏感信息记忆保留方面提高了63%的效果。然而,未来研究还需要考虑模型理解和参数差异、扩大实验范围、防止滥用等方面的问题。
已下架不支持订阅
859

被折叠的 条评论
为什么被折叠?



