主要内容
- 研究背景:大语言模型(LLMs)应用广泛,但存在隐私风险,成员推理攻击(MIAs)可判断样本是否在训练集中。现有MIAs多基于输出logits,实际中难以获取,标签仅设置(label-only setting)更具挑战性但也更贴合实际。
- 标签仅设置下的MIAs研究:回顾现有标签仅设置下的MIAs,发现基于样本鲁棒性差异的攻击在预训练LLMs上效果不佳,原因是预训练LLMs泛化性好,成员与非成员到决策边界距离差异小,且token级扰动太粗糙难以捕捉这种差异。
- PETAL攻击方法:提出PETAL(基于每个token语义相似性的标签仅成员推理攻击)。通过聚焦首个生成token,利用其与特定token的语义相似性近似输出概率,计算近似困惑度来推断成员身份。具体步骤包括在代理模型上获取语义相似性 - 概率对并进行线性回归,在目标模型上查询语义相似性,进而计算近似困惑度并通过阈值判断成员身份。
- 实验评估:在WikiMIA和MIMIR基准数据集上,对5种开源LLMs进行实验,对比6种先进攻击方法。结果表明PETAL显著优于现有标签仅攻击,与基于logits的攻击