主要内容
- 研究背景:大语言模型(LLMs)应用广泛,但存在隐私风险,成员推理攻击(MIAs)可判断样本是否在训练集中。现有MIAs多基于输出logits,实际中难以获取,标签仅设置(label-only setting)更具挑战性但也更贴合实际。
- 标签仅设置下的MIAs研究:回顾现有标签仅设置下的MIAs,发现基于样本鲁棒性差异的攻击在预训练LLMs上效果不佳,原因是预训练LLMs泛化性好,成员与非成员到决策边界距离差异小,且token级扰动太粗糙难以捕捉这种差异。
- PETAL攻击方法:提出PETAL(基于每个token语义相似性的标签仅成员推理攻击)。通过聚焦首个生成token,利用其与特定token的语义相似性近似输出概率,计算近似困惑度来推断成员身份。具体步骤包括在代理模型上获取语义相似性 - 概率对并进行线性回归,在目标模型上查询语义相似性,进而计算近似困惑度并通过阈值判断成员身份。
- 实验评估:在WikiMIA和MIMIR基准数据集上,对5种开源LLMs进行实验,对比6种先进攻击方法。结果表明PETAL显著优于现有标签仅攻击,与基于logits的攻击效果相当,在低FPR下的TPR有突破,且在不同参数设置、解码策略、微调LLMs及闭源LLMs(Gemini-1.5-Flash和GPT-3.5-Turbo-Instruct)上都表现出有效性和鲁棒性。
- 对抗防御策略分析:研究文本释义、训练数据去重、MemGuard和差分隐私等防御策略对PETAL的影响。发现

订阅专栏 解锁全文
1688

被折叠的 条评论
为什么被折叠?



