一、文章主要内容总结
该论文聚焦微调大型语言模型(LLMs)中的数据记忆风险,通过实证分析与方案设计,为LLM隐私保护提供了系统性解决方案,核心内容可分为以下几方面:
- 问题背景与研究动机:LLMs在自然语言处理领域应用广泛,但存在训练数据记忆问题,尤其在微调过程中,重复接触敏感数据会导致隐私泄露风险剧增。当前研究多关注预训练阶段的记忆问题,针对微调阶段小范围、高敏感性数据集的记忆风险研究存在缺口,且缺乏兼顾安全性与实用性的隐私保护框架,同时日益严格的AI隐私监管也推动了相关研究需求。
- 研究方法
- 实验框架:选取GPT-2(1.5B参数)、Phi-3-mini(3.8B参数)、Gemma-2-2B(2B参数)三种不同规模与设计理念的LLM架构,构建含API密钥、数据库凭证、财务信息等敏感信息的合成数据集,嵌入真实对话场景以模拟实际数据模式。
- 记忆检测协议:设计多提示变体与采样策略的增强型记忆检测协议,通过输入模型、秘密集与提示变体,统计秘密泄露数量,计算记忆率并利用bootstrap采样生成置信区间。
- 隐私保护框架:提出四种互补的隐私保护方法,包括基于TF-IDF向量与余弦相似度的语义数据去重、在模型logits中添加拉普拉斯噪声的生成时差分隐私、基于香农熵的低熵输出过滤、结合正则表达式与机器学习分类器的模式化内容过滤。
- 评估指标:从记忆率(成功提取秘密的百分比)、效用保留
订阅专栏 解锁全文
429

被折叠的 条评论
为什么被折叠?



