问题
大语言模型利用大量的文本进行训练,其中难免包含隐私内容以及受版权保护的内容。
然而在目前的模型中只遗忘这些数据点是困难的,这因此导致了许多近似遗忘算法的发展。
传统的方法对于这些模型的评估范围很窄,因此本文提出了MUSE这个新的benchmark,量化算法的成功性与实用性。
大致方法
MUSE列举了6个属性:
- 无逐字记忆
- 无知识记忆
- 无隐私泄露
- 保留不打算移出的数据
- 对移出请求规模的可扩展性
- 连续unlearn请求的可持续性
测试结果
用8种流行的unlearn算法在7B参数的语言模型unlearn《哈利波特》。
- 大多数算法可以防止逐字记忆和知识记忆,但只有一种方法不会导致严重的隐私泄露。
- 现有算法会导致模型的一般效用下降。
- 无法可持续地适应连续的反学习请求或大规模内容移除。
6个属性具体怎么做的
- 无逐字记忆
采用ROUGE-L F1 SCORE。
V e r b M e m ( f , D ) = 1 ∣ D f o r g e t ∣ ∑ R O U G E ( f ( x [ : l ] ) , x [ l + 1 : ] ) VerbMem(f,D)=\frac{1}{|D_{forget}|}\sum ROUGE(f(x_{[:l]}),x_{[l+1:]}) VerbMem(f,D)=∣Dforget∣1∑ROUGE(f(x[:l]),x[l+1:])
f ( x ) f(x) f(x)为大模型输入为x时候的输出,和 x [ l + 1 : ] x_{[l+1:]} x[l+1:]进行比较,通过一致的长度占 D f o r g e t D_{forget} Dforget的比例判断 - 无知识记忆
K n o w M e m ( f , D f o r g e t ) = 1 ∣ D f o r g e t ∣ ∑ R O U G E ( f ( q ) , a ) KnowMem(f,D_{forget})=\frac{1}{|D_{forget}|}\sum ROUGE(f(q),a) KnowMem(f,Dforget)=∣Dforget∣1∑ROUGE(f(q),a)
判断f(q)和answer的相似度。 - 无隐私泄露
P r i v L e a k = A U C ( f u n l e a r n ; D f o r g e t , D h o l d o u t ) − A U C ( f r e t r a i n ; D f o r g e t , D h o l d o u t ) A U C ( f r e t r a i n ; D f o r g e t , D h o l d o u t ) PrivLeak=\frac{AUC(f_{unlearn;D_{forget},D_{holdout}})-AUC(f_{retrain};D_{forget},D_{holdout})}{AUC(f_{retrain};D_{forget},D_{holdout})} PrivLeak=AUC(fretrain;Dforget,Dholdout)AUC(funlearn;Dforget,Dholdout)−AUC(fretrain;Dforget,Dholdout)
通过MIA攻击看模型,通过AUC判断在forget和holdout数据集的loss区别,能够判断某个数据集是否使用,通过比较retrain和unlearn模型的AUC差距判断PrivLeak的程度。 - 保留不打算移出的数据
使用知识记忆度量 K n o w M e m ( f u n l e a r n , D r e t r a i n ) KnowMem(f_{unlearn},D_{retrain}) KnowMem(funlearn,Dretrain)评估unlearn模型在保留集的表现。 - 对移出请求规模的可扩展性
可扩展性:我们通过检查遗忘方法在不同大小的遗忘集上的表现来评估其可扩展性。设 D u c D_u^c Duc
表示大小为 c 的遗忘集, f u c f_u^c fuc为相应的遗忘模型。对于任何数据拥有者重视的指标,如效用保留,我们通过分析该指标在 c 从小到大变化时的趋势来衡量可扩展性。 - 连续unlearn请求的可持续性
机器遗忘操作通常需要按顺序应用,因为数据删除请求可能在不同时间到达。我们将处理第
k个请求后的遗忘模型表示为 f u k f_u^k fuk。为了衡量可持续性,我们分析随着连续遗忘请求数量 k 增加时,任何数据拥有者重视的指标的趋势。