文章核心总结与创新点
主要内容
本文聚焦大型语言模型(LLMs)的成员推理攻击(MIAs),通过将强成员推理攻击(以LiRA为例)扩展到10M至1B参数的GPT-2架构,基于C4数据集的200多亿tokens训练参考模型,揭示了强MIAs在LLMs上的表现与局限:强MIAs能在预训练LLMs上取得一定成功,但实际场景中效果有限(AUC<0.7);即便整体AUC优于随机水平,大量单样本预测仍因训练随机性呈现统计随机性;MIA成功率与相关隐私指标的关联并非此前认为的简单线性关系。
创新点
- 首次在大规模预训练LLMs上开展强MIAs实验,训练4000多个参考模型,数据集规模较此前研究扩大三个数量级,填补了强MIAs在LLMs上的基准空白。
- 发现模型规模与MIA脆弱性呈非单调关系,打破“模型越大隐私风险越高”的固有认知。
- 提出单样本预测不稳定性指标(flip rate),揭示聚合指标掩盖的个体预测不可靠问题,量化了统计随机性对单样本 membership 判定的影响。
- 厘清MIA成功率与训练数据提取、样本长度、训练顺序等隐私相关指标的复杂关联,证明二者可能捕捉记忆相关的不同信号。
英文原文翻译(Markdown格式)
Abstract
最先进的成员推理攻击(MIAs)通常需要训练大量参考模型,这使得这类攻击难以扩展到大型预训练语言模型(LLMs)。因此,以往的

订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



