Teach Large Language Models to Forget Privacy

828 篇文章

已下架不支持订阅

本文介绍了一种名为Prompt2Forget(P2F)的方法,用于教导大型语言模型(LLM)遗忘隐私敏感信息,以应对LLM的隐私挑战。P2F通过将问题分解、生成伪造答案和混淆模型记忆实现零样本泛化,实现在不牺牲模型效用的情况下,减少约90%的记忆。实验显示,与直接指令相比,P2F在减轻LLM敏感信息记忆保留方面提高了63%的效果。然而,未来研究还需要考虑模型理解和参数差异、扩大实验范围、防止滥用等方面的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Teach Large Language Models to Forget Privacy》的翻译。

教大型语言模型忘记隐私

摘要

大型语言模型(LLM)已经被证明是强大的,但隐私泄露的风险仍然是一个值得关注的问题。传统的隐私保护方法,如差分隐私和同胚加密,不适用于仅限black-box API的设置,需要模型透明度或大量的计算资源。我们提出了Prompt2Forget(P2F),这是第一个旨在通过教导LLM忘记来应对LLM本地隐私挑战的框架。该方法包括将完整的问题分解成更小的片段,生成伪造的答案,并混淆模型对原始输入的记忆。基准数据集包含来自不同领域的隐私敏感信息。P2F实现了零样本泛化,允许在无需手动调整的情况下适应广泛的用例。实验结果表明,P2F具有模糊LLM记忆的强大能力,在没有任何效用损失的情况下获得了约90%的健忘分数。与简单的直接指令技术相比,这意味着高达63%的增强,突出了P2F在减轻LLM中敏感信息的记忆保留方面的功效。我们的发现建立了LLM遗忘任务这一新领域的第一个基准,代表了新兴LLM领域在隐私保护方面的一个有意义的进步。

1 引言

2 相关工作

3 方法

4 实验

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值